8.4 Tamaño de muestra para UPM, hogares y personas
Cuando la unidad de observación sean las personas, sin importar que la variable de interés esté a nivel de hogar, será necesario siempre basar nuestros cálculos en el tamaño de muestra de las personas. Por ejemplo, para tener una inferencia apropiada al estimar el ingreso medio percápita, el porcentaje de personas pobres o el porcentaje de personas con una característica particular es necesario definir a la población objetivo como todas las personas que componen un hogar para posteriomente medir la variable de interés que será observada para todas ellas.
Con estos elementos es posible realizar simulaciones de algunos escenarios de muestreo, que indiquen el tamaño de muestra necesario en cada una de las etapas de la selección de la muestra. Si fuese posible sistematizar los elementos más importantes a la hora de calcular el tamaño de muestra en una encuesta de hogares, sería necesario recurrir a los siguientes pasos de manera ordenada:
Definir la población de interés de manera explícita. En particular, es necesario aclarar si la unidad de análisis son las personas o los hogares. De esta forma, se debe fijar los valores para \(r\) y \(b\). Si la unidad de análisis son todas las personas del hogar, entonces el porcentaje de personas con la característica de interés será \(r = 1\), de otra forma \(r<1\). Por otro lado, el número promedio de personas por hogar \(b\) dependerá del dominio de representatividad en el que se requiera el cálculo.
Definir el número promedio de hogares. El número promedio de hogares que se desea encuestar en cada una de las UPM está dado por \(\bar{n}_{II}\). Este proceso debería ser repetido de forma iterativa en los pasos subsiguientes para poder evaluar la calidad del diseño. De las varias opciones de \(\bar{n}_{II}\) será necesario escoger solo una.
Calcular el número promedio de personas que serán encuestadas. Al igual que en el paso anterior es necesario probar varios escenarios que redundarán en la escogencia de un número óptimo de personas por UPM. Los valores de \(\bar{n}\) dependen directamente del paso anterior al escoger \(\bar{n}_{II}\). Debido a que la selección de las personas está supeditada a la selección de los hogares, entonces \(\bar{n}\) se puede descomponer manteniendo la relación con \(r\) y \(b\), de la siguiente manera:
\[ \bar{n} = \bar{n}_{II} \times r \times b \]
Calcular el efecto de diseño. Es necesario definir (o calcular con encuestas o censos anteriores) la correlación intraclase de la variable de interés con el agrupamiento por UPM \(\rho_y\). Luego de esto, se debe calcular el efecto de diseño \(DEFF\) como función de \(\rho_y\) y de \(\bar{n}\); esto es \(DEFF \approx 1 + (\bar{n} - 1)\rho_y\). Nótese que esta cifra sólo se calcula sobre la población de interés.
Calcular el tamaño de muestra de personas. A partir de las expresiones de tamaño de muestra para diseños de muestreo complejos, calcular el tamaño de muestra necesario para lograr una precisión adecuada en la inferencia. En primer lugar, si lo que se quiere estimar es un promedio \(\bar{y}_U\), el tamaño de muestra necesario para alcanzar un margen de error relativo máximo de \(MER \times 100\%\) es de
\[ n \geq \dfrac{S^2_{y_U}DEFF}{\dfrac{MER^2 \bar{y}_U^2}{z_{1 - \alpha/2}^2}+\dfrac{S^2_{y_U}DEFF}{N}} \]
Por otro lado, si lo que se quiere estimar es una proporción \(P\), y se utiliza el margen de error, entonces la expresión apropiada para calcular el tamaño de muestra estará dada por
\[ n \geq \dfrac{P\ (1-P)\ DEFF}{\dfrac{MER^2P^2}{z_{1-\alpha/2}^2}+\dfrac{P\ (1-P) \ DEFF}{N}} \]
- Calcular el tamaño de muestra de hogares. Es necesario calcular el número total de hogares que deben ser seleccionados para lograr entrevistar a todas las personas que serán observadas en el punto anterior. El número de hogares que deben ser seleccionados estará determinado por las cantidades \(n\), \(b\) y \(r\), de la siguiente forma
\[ n_{II} = \dfrac{n}{r \times b} \]
- Calcular el número de UPM. Los hogares y las personas se observan a partir de las UPM. En este paso final es necesario calcular el número de UPM que deben ser seleccionadas en el muestreo a partir de la relación
\[ n_{I} = \frac{n}{\bar{n}} = \frac{n_{II}}{\bar{n}_{II}} \]
8.4.1 Ejemplo: proporción de personas pobres
Suponga que el parámetro de interés es el porcentaje de personas pobres (cuyo ingreso está por debajo de un umbral preestablecido) y se quiere hacer inferencia con un margen de error relativo máximo del 5%. Por estudios anteriores en este país, se ha estimado que la proporción de personas pobres está alrededor de \(P = 4\)%. Nótese que la población objetivo está conformada por todos los habitantes del país puesto que \(r = 100\)%. Además, en este país se ha estimado que el tamaño promedio del hogar es de alrededor de \(b = 3.5\) personas. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés con las unidades primarias de muestreo es \(\rho_y = 0.034\).
La siguiente tabla resume los resultados del ejercicio para \(\bar{n}_{II} =\) 10 hogares por UPM, los cuales implican que por cada UPM se entrevistarían en promedio a \(\bar{n} = 10 * 1 * 3.5 = 35\) personas. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 2.2, para un total de personas en la muestra de \(n = 55936\) que serán observados a partir de la selección de \(n_{II} = 55936/(1 * 3.5) = 15982\) hogares en \(n_{I} = 55936 / 35 = 1598\) UPM.
Hogares promedio por UPM \((\bar{n}_{II})\) | Personas promedio por UPM \((\bar n)\) | DEFF | Muestra de UPM \((n_I)\) | Muestra de hogares \((n_{II})\) | Muestra de personas \((n)\) |
---|---|---|---|---|---|
10 | 35 | 2.2 | 1598 | 15982 | 55936 |
Por supuesto que es posible plantear otros escenarios a medida que se evalúe el efecto que conlleva el cambio del número de hogares que se seleccionan en cada UPM. Por ejemplo, el investigador podría proponer que se seleccionarán en promedio 5 hogares por UPM, lo cual cambiaría el número de UPM que serían seleccionadas en la muestra de la primera etapa, así como también el número total de personas que serían seleccionadas en todo el operativo. Debido a que el efecto de diseño es una función del número de hogares promedio a seleccionar en las UPM, esta cifra también variará. A continuación se muestran algunos resultados que permiten establecer estos escenarios cuando se varía el tamaño de muestra promedio de hogares por UPM. La escogencia del escenario ideal se debe dar en términos de la conveniencia logística y presupuestal en el estudio. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.
Hogares promedio por UPM \((\bar{n}_{II})\) | Personas promedio por UPM \((\bar n)\) | DEFF | Muestra de UPM \((n_I)\) | Muestra de hogares \((n_{II})\) | Muestra de personas \((n)\) |
---|---|---|---|---|---|
5 | 18 | 1.6 | 2315 | 11575 | 40512 |
10 | 35 | 2.2 | 1598 | 15982 | 55936 |
15 | 52 | 2.8 | 1359 | 20386 | 71351 |
20 | 70 | 3.4 | 1239 | 24787 | 86756 |
25 | 88 | 3.9 | 1167 | 29186 | 102152 |
30 | 105 | 4.5 | 1119 | 33582 | 117538 |
35 | 122 | 5.1 | 1085 | 37976 | 132915 |
40 | 140 | 5.7 | 1059 | 42366 | 148282 |
45 | 158 | 6.3 | 1039 | 46754 | 163640 |
8.4.2 Ejemplo: ingreso promedio por persona
Suponga que se desea estimar el ingreso promedio por hogar con un margen de error relativo máximo del 2%. La variable de interés (ingreso) es continua y se estima que la media oscila alrededor de \(\bar{y}_U=1180\) dólares con una varianza de \(S^2_{y_U}=1845.94^2\). En este caso, la población objetivo son todos los habitantes del hogar, por lo cual \(r = 100\%\). La composición del hogar se calcula en \(b = 3.79\) personas por hogar. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés es \(\rho_y = 0.035\). Nótese que la correlación intraclase cambia con respecto a la característica que se desee medir.
La siguiente tabla muestra los resultados del ejercicio al seleccionar \(\bar{n}_{II} =\) 15 hogares por UPM, que a su vez implica que por cada UPM se encontrarían en promedio \(\bar{n}= 15 * 1 * 3.79 \cong 57\) personas por UPM. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 3, para un total de personas en la muestra de \(n = 48861\) que serán observados a partir de la selección de \(n_{II} = 48861 / (1 * 3.79) = 12892\) hogares en \(n_{I} =\) 859 UPM.
Hogares promedio por UPM \((\bar{n}_{II})\) | Personas promedio por UPM \((\bar n)\) | DEFF | Muestra de UPM \((n_I)\) | Muestra de hogares \((n_{II})\) | Muestra de personas \((n)\) |
---|---|---|---|---|---|
15 | 57 | 3 | 859 | 12892 | 48861 |
A continuación se muestran algunos resultados que permiten establecer otros escenarios de muestreo cuando se varía el tamaño de muestra promedio de hogares por UPM. Recuérdese que cualquiera de estos escenarios es válido, desde el punto de vista de la eficiencia estadística, aunque no todos serán válidos si se tienen en cuenta otros aspectos como los logísticos o presupuestales. Por ejemplo, si se escogiera el penúltimo escenario, entonces para 50 hogares por UPM, se debería encuestar en promedio a 190 personas, lo cual reduciría el número de UPM a 662, pero aumentaría el tamaño de muestra general a 33098 personas, lo cual involucraría mayores costos de contratación de encuestadores, supervisores y seguramente un operativo de campo de más días de duración. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.
Hogares promedio por UPM \((\bar{n}_{II})\) | Personas promedio por UPM \((\bar n)\) | DEFF | Muestra de UPM \((n_I)\) | Muestra de hogares \((n_{II})\) | Muestra de personas \((n)\) |
---|---|---|---|---|---|
5 | 19 | 1.6 | 1422 | 7108 | 26938 |
10 | 38 | 2.3 | 1000 | 10001 | 37902 |
15 | 57 | 3.0 | 859 | 12892 | 48861 |
20 | 76 | 3.6 | 789 | 15783 | 59816 |
25 | 95 | 4.3 | 747 | 18672 | 70766 |
30 | 114 | 4.9 | 719 | 21560 | 81711 |
50 | 190 | 7.6 | 662 | 33098 | 125443 |
100 | 379 | 14.2 | 619 | 61857 | 234439 |
8.4.3 Ejemplo: tasa de desocupación en adultos mayores
Suponga que la incidencia de la desocupación está alrededor de \(P = 5.5\)% en la población objetivo, que son las personas económicamente activas (PEA) mayores de 60 años; en este país, se ha estimado que en promedio hay \(r = 4.6\)% de adultos mayores por hogar que pertenecen a la PEA, cuyo tamaño promedio es de alrededor de \(b = 5\) personas. Además, se quiere hacer inferencia con un margen de error relativo máximo del 15%. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés es \(\rho_y = 0.7\).
La siguiente tabla muestra los resultados del ejercicio, que implica que seleccionar \(\bar{n}_{II} =\) 20 hogares por UPM implicaría un promedio de \(\bar{n} = 20 * 0.046 * 5 = 4.6\) adultos mayores en la PEA (personas de interés) por UPM. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 3.5, para un total de \(n = 7272\) adultos mayores en la PEA que serán observados en la muestra a partir de la selección de \(n_{II} = 7272 / (0.046 * 5) \cong 31617\) hogares en \(n_{I} = 7272 / 4.6 \cong 1581\) UPM.
Hogares promedio por UPM \((\bar{n}_{II})\) | Personas promedio por UPM \((\bar n)\) | DEFF | Muestra de UPM \((n_I)\) | Muestra de hogares \((n_{II})\) | Muestra de personas \((n)\) |
---|---|---|---|---|---|
20 | 4.6 | 3.5 | 1581 | 31617 | 7272 |
En este caso la muestra en los 31617 hogares induce un operativo muy grande que implicaría la observación de \(31617 * 5 = 158085\) personas en los hogares, de las cuales \(n = 7272\) serían los casos de interés. Como se ha visto en los anteriores ejemplos, es posible plantear otros escenarios a medida que se evalúe el efecto que conlleva el cambio del número de hogares que se seleccionan en cada UPM. A continuación se muestran algunos resultados que permite establecer estos escenarios cuando se varía el tamaño de muestra promedio de hogares por UPM. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.
Hogares promedio por UPM \((\bar{n}_{II})\) | Personas promedio por UPM \((\bar n)\) | DEFF | Muestra de UPM \((n_I)\) | Muestra de hogares \((n_{II})\) | Muestra de personas \((n)\) |
---|---|---|---|---|---|
5 | 1.1 | 1.1 | 1985 | 9926 | 2283 |
10 | 2.3 | 1.9 | 1716 | 17157 | 3946 |
15 | 3.5 | 2.7 | 1626 | 24387 | 5609 |
20 | 4.6 | 3.5 | 1581 | 31617 | 7272 |
25 | 5.8 | 4.3 | 1554 | 38848 | 8935 |
30 | 6.9 | 5.1 | 1536 | 46074 | 10597 |
50 | 11.5 | 8.3 | 1500 | 74983 | 17246 |
100 | 23.0 | 16.4 | 1472 | 147222 | 33861 |