8.4 Tamaño de muestra para UPM, hogares y personas

Cuando la unidad de observación sean las personas, sin importar que la variable de interés esté a nivel de hogar, será necesario siempre basar nuestros cálculos en el tamaño de muestra de las personas. Por ejemplo, para tener una inferencia apropiada al estimar el ingreso medio percápita, el porcentaje de personas pobres o el porcentaje de personas con una característica particular es necesario definir a la población objetivo como todas las personas que componen un hogar para posteriomente medir la variable de interés que será observada para todas ellas.

Con estos elementos es posible realizar simulaciones de algunos escenarios de muestreo, que indiquen el tamaño de muestra necesario en cada una de las etapas de la selección de la muestra. Si fuese posible sistematizar los elementos más importantes a la hora de calcular el tamaño de muestra en una encuesta de hogares, sería necesario recurrir a los siguientes pasos de manera ordenada:

  • Definir la población de interés de manera explícita. En particular, es necesario aclarar si la unidad de análisis son las personas o los hogares. De esta forma, se debe fijar los valores para \(r\) y \(b\). Si la unidad de análisis son todas las personas del hogar, entonces el porcentaje de personas con la característica de interés será \(r = 1\), de otra forma \(r<1\). Por otro lado, el número promedio de personas por hogar \(b\) dependerá del dominio de representatividad en el que se requiera el cálculo.

  • Definir el número promedio de hogares. El número promedio de hogares que se desea encuestar en cada una de las UPM está dado por \(\bar{n}_{II}\). Este proceso debería ser repetido de forma iterativa en los pasos subsiguientes para poder evaluar la calidad del diseño. De las varias opciones de \(\bar{n}_{II}\) será necesario escoger solo una.

  • Calcular el número promedio de personas que serán encuestadas. Al igual que en el paso anterior es necesario probar varios escenarios que redundarán en la escogencia de un número óptimo de personas por UPM. Los valores de \(\bar{n}\) dependen directamente del paso anterior al escoger \(\bar{n}_{II}\). Debido a que la selección de las personas está supeditada a la selección de los hogares, entonces \(\bar{n}\) se puede descomponer manteniendo la relación con \(r\) y \(b\), de la siguiente manera:

\[ \bar{n} = \bar{n}_{II} \times r \times b \]

  • Calcular el efecto de diseño. Es necesario definir (o calcular con encuestas o censos anteriores) la correlación intraclase de la variable de interés con el agrupamiento por UPM \(\rho_y\). Luego de esto, se debe calcular el efecto de diseño \(DEFF\) como función de \(\rho_y\) y de \(\bar{n}\); esto es \(DEFF \approx 1 + (\bar{n} - 1)\rho_y\). Nótese que esta cifra sólo se calcula sobre la población de interés.

  • Calcular el tamaño de muestra de personas. A partir de las expresiones de tamaño de muestra para diseños de muestreo complejos, calcular el tamaño de muestra necesario para lograr una precisión adecuada en la inferencia. En primer lugar, si lo que se quiere estimar es un promedio \(\bar{y}_U\), el tamaño de muestra necesario para alcanzar un margen de error relativo máximo de \(MER \times 100\%\) es de

\[ n \geq \dfrac{S^2_{y_U}DEFF}{\dfrac{MER^2 \bar{y}_U^2}{z_{1 - \alpha/2}^2}+\dfrac{S^2_{y_U}DEFF}{N}} \]

Por otro lado, si lo que se quiere estimar es una proporción \(P\), y se utiliza el margen de error, entonces la expresión apropiada para calcular el tamaño de muestra estará dada por

\[ n \geq \dfrac{P\ (1-P)\ DEFF}{\dfrac{MER^2P^2}{z_{1-\alpha/2}^2}+\dfrac{P\ (1-P) \ DEFF}{N}} \]

  • Calcular el tamaño de muestra de hogares. Es necesario calcular el número total de hogares que deben ser seleccionados para lograr entrevistar a todas las personas que serán observadas en el punto anterior. El número de hogares que deben ser seleccionados estará determinado por las cantidades \(n\), \(b\) y \(r\), de la siguiente forma

\[ n_{II} = \dfrac{n}{r \times b} \]

  • Calcular el número de UPM. Los hogares y las personas se observan a partir de las UPM. En este paso final es necesario calcular el número de UPM que deben ser seleccionadas en el muestreo a partir de la relación

\[ n_{I} = \frac{n}{\bar{n}} = \frac{n_{II}}{\bar{n}_{II}} \]

8.4.1 Ejemplo: proporción de personas pobres

Suponga que el parámetro de interés es el porcentaje de personas pobres (cuyo ingreso está por debajo de un umbral preestablecido) y se quiere hacer inferencia con un margen de error relativo máximo del 5%. Por estudios anteriores en este país, se ha estimado que la proporción de personas pobres está alrededor de \(P = 4\)%. Nótese que la población objetivo está conformada por todos los habitantes del país puesto que \(r = 100\)%. Además, en este país se ha estimado que el tamaño promedio del hogar es de alrededor de \(b = 3.5\) personas. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés con las unidades primarias de muestreo es \(\rho_y = 0.034\).

La siguiente tabla resume los resultados del ejercicio para \(\bar{n}_{II} =\) 10 hogares por UPM, los cuales implican que por cada UPM se entrevistarían en promedio a \(\bar{n} = 10 * 1 * 3.5 = 35\) personas. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 2.2, para un total de personas en la muestra de \(n = 55936\) que serán observados a partir de la selección de \(n_{II} = 55936/(1 * 3.5) = 15982\) hogares en \(n_{I} = 55936 / 35 = 1598\) UPM.

Hogares promedio por UPM \((\bar{n}_{II})\) Personas promedio por UPM \((\bar n)\) DEFF Muestra de UPM \((n_I)\) Muestra de hogares \((n_{II})\) Muestra de personas \((n)\)
10 35 2.2 1598 15982 55936

Por supuesto que es posible plantear otros escenarios a medida que se evalúe el efecto que conlleva el cambio del número de hogares que se seleccionan en cada UPM. Por ejemplo, el investigador podría proponer que se seleccionarán en promedio 5 hogares por UPM, lo cual cambiaría el número de UPM que serían seleccionadas en la muestra de la primera etapa, así como también el número total de personas que serían seleccionadas en todo el operativo. Debido a que el efecto de diseño es una función del número de hogares promedio a seleccionar en las UPM, esta cifra también variará. A continuación se muestran algunos resultados que permiten establecer estos escenarios cuando se varía el tamaño de muestra promedio de hogares por UPM. La escogencia del escenario ideal se debe dar en términos de la conveniencia logística y presupuestal en el estudio. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.

Tabla de muestreo para la estimación de proporción de personas pobres en el ejemplo.
Hogares promedio por UPM \((\bar{n}_{II})\) Personas promedio por UPM \((\bar n)\) DEFF Muestra de UPM \((n_I)\) Muestra de hogares \((n_{II})\) Muestra de personas \((n)\)
5 18 1.6 2315 11575 40512
10 35 2.2 1598 15982 55936
15 52 2.8 1359 20386 71351
20 70 3.4 1239 24787 86756
25 88 3.9 1167 29186 102152
30 105 4.5 1119 33582 117538
35 122 5.1 1085 37976 132915
40 140 5.7 1059 42366 148282
45 158 6.3 1039 46754 163640

8.4.2 Ejemplo: ingreso promedio por persona

Suponga que se desea estimar el ingreso promedio por hogar con un margen de error relativo máximo del 2%. La variable de interés (ingreso) es continua y se estima que la media oscila alrededor de \(\bar{y}_U=1180\) dólares con una varianza de \(S^2_{y_U}=1845.94^2\). En este caso, la población objetivo son todos los habitantes del hogar, por lo cual \(r = 100\%\). La composición del hogar se calcula en \(b = 3.79\) personas por hogar. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés es \(\rho_y = 0.035\). Nótese que la correlación intraclase cambia con respecto a la característica que se desee medir.

La siguiente tabla muestra los resultados del ejercicio al seleccionar \(\bar{n}_{II} =\) 15 hogares por UPM, que a su vez implica que por cada UPM se encontrarían en promedio \(\bar{n}= 15 * 1 * 3.79 \cong 57\) personas por UPM. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 3, para un total de personas en la muestra de \(n = 48861\) que serán observados a partir de la selección de \(n_{II} = 48861 / (1 * 3.79) = 12892\) hogares en \(n_{I} =\) 859 UPM.

Hogares promedio por UPM \((\bar{n}_{II})\) Personas promedio por UPM \((\bar n)\) DEFF Muestra de UPM \((n_I)\) Muestra de hogares \((n_{II})\) Muestra de personas \((n)\)
15 57 3 859 12892 48861

A continuación se muestran algunos resultados que permiten establecer otros escenarios de muestreo cuando se varía el tamaño de muestra promedio de hogares por UPM. Recuérdese que cualquiera de estos escenarios es válido, desde el punto de vista de la eficiencia estadística, aunque no todos serán válidos si se tienen en cuenta otros aspectos como los logísticos o presupuestales. Por ejemplo, si se escogiera el penúltimo escenario, entonces para 50 hogares por UPM, se debería encuestar en promedio a 190 personas, lo cual reduciría el número de UPM a 662, pero aumentaría el tamaño de muestra general a 33098 personas, lo cual involucraría mayores costos de contratación de encuestadores, supervisores y seguramente un operativo de campo de más días de duración. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.

Tabla de muestreo para la estimación del ingreso promedio por persona en el ejemplo.
Hogares promedio por UPM \((\bar{n}_{II})\) Personas promedio por UPM \((\bar n)\) DEFF Muestra de UPM \((n_I)\) Muestra de hogares \((n_{II})\) Muestra de personas \((n)\)
5 19 1.6 1422 7108 26938
10 38 2.3 1000 10001 37902
15 57 3.0 859 12892 48861
20 76 3.6 789 15783 59816
25 95 4.3 747 18672 70766
30 114 4.9 719 21560 81711
50 190 7.6 662 33098 125443
100 379 14.2 619 61857 234439

8.4.3 Ejemplo: tasa de desocupación en adultos mayores

Suponga que la incidencia de la desocupación está alrededor de \(P = 5.5\)% en la población objetivo, que son las personas económicamente activas (PEA) mayores de 60 años; en este país, se ha estimado que en promedio hay \(r = 4.6\)% de adultos mayores por hogar que pertenecen a la PEA, cuyo tamaño promedio es de alrededor de \(b = 5\) personas. Además, se quiere hacer inferencia con un margen de error relativo máximo del 15%. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés es \(\rho_y = 0.7\).

La siguiente tabla muestra los resultados del ejercicio, que implica que seleccionar \(\bar{n}_{II} =\) 20 hogares por UPM implicaría un promedio de \(\bar{n} = 20 * 0.046 * 5 = 4.6\) adultos mayores en la PEA (personas de interés) por UPM. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 3.5, para un total de \(n = 7272\) adultos mayores en la PEA que serán observados en la muestra a partir de la selección de \(n_{II} = 7272 / (0.046 * 5) \cong 31617\) hogares en \(n_{I} = 7272 / 4.6 \cong 1581\) UPM.

Hogares promedio por UPM \((\bar{n}_{II})\) Personas promedio por UPM \((\bar n)\) DEFF Muestra de UPM \((n_I)\) Muestra de hogares \((n_{II})\) Muestra de personas \((n)\)
20 4.6 3.5 1581 31617 7272

En este caso la muestra en los 31617 hogares induce un operativo muy grande que implicaría la observación de \(31617 * 5 = 158085\) personas en los hogares, de las cuales \(n = 7272\) serían los casos de interés. Como se ha visto en los anteriores ejemplos, es posible plantear otros escenarios a medida que se evalúe el efecto que conlleva el cambio del número de hogares que se seleccionan en cada UPM. A continuación se muestran algunos resultados que permite establecer estos escenarios cuando se varía el tamaño de muestra promedio de hogares por UPM. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.

Tabla de muestreo para la estimación de la tasa de desocupación en adultos mayores.
Hogares promedio por UPM \((\bar{n}_{II})\) Personas promedio por UPM \((\bar n)\) DEFF Muestra de UPM \((n_I)\) Muestra de hogares \((n_{II})\) Muestra de personas \((n)\)
5 1.1 1.1 1985 9926 2283
10 2.3 1.9 1716 17157 3946
15 3.5 2.7 1626 24387 5609
20 4.6 3.5 1581 31617 7272
25 5.8 4.3 1554 38848 8935
30 6.9 5.1 1536 46074 10597
50 11.5 8.3 1500 74983 17246
100 23.0 16.4 1472 147222 33861