8.4 Tamaño de muestra para UPM, hogares y personas

Cuando la unidad de observación sean las personas, sin importar que la variable de interés esté a nivel de hogar, será necesario siempre basar nuestros cálculos en el tamaño de muestra de las personas. Por ejemplo, para tener una inferencia apropiada al estimar el ingreso medio percápita, el porcentaje de personas pobres o el porcentaje de personas con una característica particular es necesario definir a la población objetivo como todas las personas que componen un hogar para posteriomente medir la variable de interés que será observada para todas ellas.

Con estos elementos es posible realizar simulaciones de algunos escenarios de muestreo, que indiquen el tamaño de muestra necesario en cada una de las etapas de la selección de la muestra. Si fuese posible sistematizar los elementos más importantes a la hora de calcular el tamaño de muestra en una encuesta de hogares, sería necesario recurrir a los siguientes pasos de manera ordenada:

Definir la población de interés de manera explícita. En particular, es necesario aclarar si la unidad de análisis son las personas o los hogares. De esta forma, se debe fijar los valores para \(r\) y \(b\). Si la unidad de análisis son todas las personas del hogar, entonces el porcentaje de personas con la característica de interés será \(r = 1\), de otra forma \(r<1\). Por otro lado, el número promedio de personas por hogar \(b\) dependerá del dominio de representatividad en el que se requiera el cálculo.
Definir el número promedio de hogares. El número promedio de hogares que se desea encuestar en cada una de las UPM está dado por \(\bar{n}_{II}\). Este proceso debería ser repetido de forma iterativa en los pasos subsiguientes para poder evaluar la calidad del diseño. De las varias opciones de \(\bar{n}_{II}\) será necesario escoger solo una.
Calcular el número promedio de personas que serán encuestadas. Al igual que en el paso anterior es necesario probar varios escenarios que redundarán en la escogencia de un número óptimo de personas por UPM. Los valores de \(\bar{n}\) dependen directamente del paso anterior al escoger \(\bar{n}_{II}\). Debido a que la selección de las personas está supeditada a la selección de los hogares, entonces \(\bar{n}\) se puede descomponer manteniendo la relación con \(r\) y \(b\), de la siguiente manera:

\[ \bar{n} = \bar{n}_{II} \times r \times b \]

Calcular el efecto de diseño. Es necesario definir (o calcular con encuestas o censos anteriores) la correlación intraclase de la variable de interés con el agrupamiento por UPM \(\rho_y\). Luego de esto, se debe calcular el efecto de diseño \(DEFF\) como función de \(\rho_y\) y de \(\bar{n}\); esto es \(DEFF \approx 1 + (\bar{n} - 1)\rho_y\). Nótese que esta cifra sólo se calcula sobre la población de interés.
Calcular el tamaño de muestra de personas. A partir de las expresiones de tamaño de muestra para diseños de muestreo complejos, calcular el tamaño de muestra necesario para lograr una precisión adecuada en la inferencia. En primer lugar, si lo que se quiere estimar es un promedio \(\bar{y}_U\), el tamaño de muestra necesario para alcanzar un margen de error relativo máximo de \(MER \times 100\%\) es de

\[ n \geq \dfrac{S^2_{y_U}DEFF}{\dfrac{MER^2 \bar{y}_U^2}{z_{1 - \alpha/2}^2}+\dfrac{S^2_{y_U}DEFF}{N}} \]

Por otro lado, si lo que se quiere estimar es una proporción \(P\), y se utiliza el margen de error, entonces la expresión apropiada para calcular el tamaño de muestra estará dada por

\[ n \geq \dfrac{P\ (1-P)\ DEFF}{\dfrac{MER^2P^2}{z_{1-\alpha/2}^2}+\dfrac{P\ (1-P) \ DEFF}{N}} \]

Calcular el tamaño de muestra de hogares. Es necesario calcular el número total de hogares que deben ser seleccionados para lograr entrevistar a todas las personas que serán observadas en el punto anterior. El número de hogares que deben ser seleccionados estará determinado por las cantidades \(n\), \(b\) y \(r\), de la siguiente forma

\[ n_{II} = \dfrac{n}{r \times b} \]

Calcular el número de UPM. Los hogares y las personas se observan a partir de las UPM. En este paso final es necesario calcular el número de UPM que deben ser seleccionadas en el muestreo a partir de la relación

\[ n_{I} = \frac{n}{\bar{n}} = \frac{n_{II}}{\bar{n}_{II}} \]

8.4.1 Ejemplo: proporción de personas pobres

Suponga que el parámetro de interés es el porcentaje de personas pobres (cuyo ingreso está por debajo de un umbral preestablecido) y se quiere hacer inferencia con un margen de error relativo máximo del 5%. Por estudios anteriores en este país, se ha estimado que la proporción de personas pobres está alrededor de \(P = 4\)%. Nótese que la población objetivo está conformada por todos los habitantes del país puesto que \(r = 100\)%. Además, en este país se ha estimado que el tamaño promedio del hogar es de alrededor de \(b = 3.5\) personas. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés con las unidades primarias de muestreo es \(\rho_y = 0.034\).

La siguiente tabla resume los resultados del ejercicio para \(\bar{n}_{II} =\) 10 hogares por UPM, los cuales implican que por cada UPM se entrevistarían en promedio a \(\bar{n} = 10 * 1 * 3.5 = 35\) personas. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 2.2, para un total de personas en la muestra de \(n = 55936\) que serán observados a partir de la selección de \(n_{II} = 55936/(1 * 3.5) = 15982\) hogares en \(n_{I} = 55936 / 35 = 1598\) UPM.

Hogares promedio por UPM \((\bar{n}_{II})\)	Personas promedio por UPM \((\bar n)\)	DEFF	Muestra de UPM \((n_I)\)	Muestra de hogares \((n_{II})\)	Muestra de personas \((n)\)
10	35	2.2	1598	15982	55936

Por supuesto que es posible plantear otros escenarios a medida que se evalúe el efecto que conlleva el cambio del número de hogares que se seleccionan en cada UPM. Por ejemplo, el investigador podría proponer que se seleccionarán en promedio 5 hogares por UPM, lo cual cambiaría el número de UPM que serían seleccionadas en la muestra de la primera etapa, así como también el número total de personas que serían seleccionadas en todo el operativo. Debido a que el efecto de diseño es una función del número de hogares promedio a seleccionar en las UPM, esta cifra también variará. A continuación se muestran algunos resultados que permiten establecer estos escenarios cuando se varía el tamaño de muestra promedio de hogares por UPM. La escogencia del escenario ideal se debe dar en términos de la conveniencia logística y presupuestal en el estudio. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.

Tabla de muestreo para la estimación de proporción de personas pobres en el ejemplo.
Hogares promedio por UPM \((\bar{n}_{II})\)	Personas promedio por UPM \((\bar n)\)	DEFF	Muestra de UPM \((n_I)\)	Muestra de hogares \((n_{II})\)	Muestra de personas \((n)\)
5	18	1.6	2315	11575	40512
10	35	2.2	1598	15982	55936
15	52	2.8	1359	20386	71351
20	70	3.4	1239	24787	86756
25	88	3.9	1167	29186	102152
30	105	4.5	1119	33582	117538
35	122	5.1	1085	37976	132915
40	140	5.7	1059	42366	148282
45	158	6.3	1039	46754	163640

8.4.2 Ejemplo: ingreso promedio por persona

Suponga que se desea estimar el ingreso promedio por hogar con un margen de error relativo máximo del 2%. La variable de interés (ingreso) es continua y se estima que la media oscila alrededor de \(\bar{y}_U=1180\) dólares con una varianza de \(S^2_{y_U}=1845.94^2\). En este caso, la población objetivo son todos los habitantes del hogar, por lo cual \(r = 100\%\). La composición del hogar se calcula en \(b = 3.79\) personas por hogar. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés es \(\rho_y = 0.035\). Nótese que la correlación intraclase cambia con respecto a la característica que se desee medir.

La siguiente tabla muestra los resultados del ejercicio al seleccionar \(\bar{n}_{II} =\) 15 hogares por UPM, que a su vez implica que por cada UPM se encontrarían en promedio \(\bar{n}= 15 * 1 * 3.79 \cong 57\) personas por UPM. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 3, para un total de personas en la muestra de \(n = 48861\) que serán observados a partir de la selección de \(n_{II} = 48861 / (1 * 3.79) = 12892\) hogares en \(n_{I} =\) 859 UPM.

Hogares promedio por UPM \((\bar{n}_{II})\)	Personas promedio por UPM \((\bar n)\)	DEFF	Muestra de UPM \((n_I)\)	Muestra de hogares \((n_{II})\)	Muestra de personas \((n)\)
15	57	3	859	12892	48861

A continuación se muestran algunos resultados que permiten establecer otros escenarios de muestreo cuando se varía el tamaño de muestra promedio de hogares por UPM. Recuérdese que cualquiera de estos escenarios es válido, desde el punto de vista de la eficiencia estadística, aunque no todos serán válidos si se tienen en cuenta otros aspectos como los logísticos o presupuestales. Por ejemplo, si se escogiera el penúltimo escenario, entonces para 50 hogares por UPM, se debería encuestar en promedio a 190 personas, lo cual reduciría el número de UPM a 662, pero aumentaría el tamaño de muestra general a 33098 personas, lo cual involucraría mayores costos de contratación de encuestadores, supervisores y seguramente un operativo de campo de más días de duración. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.

Tabla de muestreo para la estimación del ingreso promedio por persona en el ejemplo.
Hogares promedio por UPM \((\bar{n}_{II})\)	Personas promedio por UPM \((\bar n)\)	DEFF	Muestra de UPM \((n_I)\)	Muestra de hogares \((n_{II})\)	Muestra de personas \((n)\)
5	19	1.6	1422	7108	26938
10	38	2.3	1000	10001	37902
15	57	3.0	859	12892	48861
20	76	3.6	789	15783	59816
25	95	4.3	747	18672	70766
30	114	4.9	719	21560	81711
50	190	7.6	662	33098	125443
100	379	14.2	619	61857	234439

8.4.3 Ejemplo: tasa de desocupación en adultos mayores

Suponga que la incidencia de la desocupación está alrededor de \(P = 5.5\)% en la población objetivo, que son las personas económicamente activas (PEA) mayores de 60 años; en este país, se ha estimado que en promedio hay \(r = 4.6\)% de adultos mayores por hogar que pertenecen a la PEA, cuyo tamaño promedio es de alrededor de \(b = 5\) personas. Además, se quiere hacer inferencia con un margen de error relativo máximo del 15%. Por último, según levantamientos anteriores, la correlación intraclase de la característica de interés es \(\rho_y = 0.7\).

La siguiente tabla muestra los resultados del ejercicio, que implica que seleccionar \(\bar{n}_{II} =\) 20 hogares por UPM implicaría un promedio de \(\bar{n} = 20 * 0.046 * 5 = 4.6\) adultos mayores en la PEA (personas de interés) por UPM. Con lo anterior se obtendría un efecto de diseño \(DEFF =\) 3.5, para un total de \(n = 7272\) adultos mayores en la PEA que serán observados en la muestra a partir de la selección de \(n_{II} = 7272 / (0.046 * 5) \cong 31617\) hogares en \(n_{I} = 7272 / 4.6 \cong 1581\) UPM.

Hogares promedio por UPM \((\bar{n}_{II})\)	Personas promedio por UPM \((\bar n)\)	DEFF	Muestra de UPM \((n_I)\)	Muestra de hogares \((n_{II})\)	Muestra de personas \((n)\)
20	4.6	3.5	1581	31617	7272

En este caso la muestra en los 31617 hogares induce un operativo muy grande que implicaría la observación de \(31617 * 5 = 158085\) personas en los hogares, de las cuales \(n = 7272\) serían los casos de interés. Como se ha visto en los anteriores ejemplos, es posible plantear otros escenarios a medida que se evalúe el efecto que conlleva el cambio del número de hogares que se seleccionan en cada UPM. A continuación se muestran algunos resultados que permite establecer estos escenarios cuando se varía el tamaño de muestra promedio de hogares por UPM. Siguiendo las recomendaciones internacionales, se desestimarían los escenarios con efectos de diseño mayores a 3.

Tabla de muestreo para la estimación de la tasa de desocupación en adultos mayores.
Hogares promedio por UPM \((\bar{n}_{II})\)	Personas promedio por UPM \((\bar n)\)	DEFF	Muestra de UPM \((n_I)\)	Muestra de hogares \((n_{II})\)	Muestra de personas \((n)\)
5	1.1	1.1	1985	9926	2283
10	2.3	1.9	1716	17157	3946
15	3.5	2.7	1626	24387	5609
20	4.6	3.5	1581	31617	7272
25	5.8	4.3	1554	38848	8935
30	6.9	5.1	1536	46074	10597
50	11.5	8.3	1500	74983	17246
100	23.0	16.4	1472	147222	33861