8.7 Tamaño de muestra para otros parámetros de interés

En las encuestas de hogares también surgen escenarios particulares que llevan a sugerir distintos caminos para la adopción de un determinado tamaño de muestra. En esta sección analizaremos los casos en los que los parámetros de interés son diferencias de proporciones y dobles diferencias. También se revisará el caso del planteamiento de pruebas de hipótesis y su relación con el tamaño de muestra.

8.7.1 Tamaño de muestra para la estimación de la diferencia de dos proporciones

Suponga una población \(U\), que se encuentra particionada7 en dos subpoblaciones \(U_1\) de tamaño \(N_1\) y \(U_2\), de tamaño \(N_2\). El interés del investigador está en conocer la diferencia de algunas proporciones entre estos grupos. Por ejemplo, suponga que se quiere conocer la diferencia entre las proporciones de niños desnutridos por sexo. Se espera que la proporción de niños desnutridos no supere la proporción de niñas desnutridas para verificar que no hay brechas de sexo. Por lo tanto, el parámetro de interés se escribe como:

\[ \theta=P_1-P_2=\frac{N_{d1}}{N_1}-\frac{N_{d2}}{N_2} \]

En donde \(N_{di}=\sum_{k\in U_i}z_{dik}\) \((i=1,2)\) y \(z_{dik}\) es una característica dicotómica que indica si el individuo \(k\)-ésimo de la subpoblación \(U_i\) está en estado de desnutrición. Por supuesto, bajo muestreo aleatorio simple, un estimador insesgado para \(\theta\) es

\[ \hat{\theta}=\hat{P}_1-\hat{P}_2=\frac{\hat{N}_{d1}}{N_1}-\frac{\hat{N}_{d2}}{N_2} \]

En donde, \(\hat{N}_{di}=\frac{N_i}{n_i}\sum_{k\in s_i}z_{dik}\) y \(s_i\) es la muestra asociada con la población \(U_i\). Luego, la varianza del anterior estimador es:

\[ Var(\hat{\theta})=Var\left(\hat{P}_1\right)+Var\left(\hat{P}_2\right)-2Cov\left(\hat{P}_1, \hat{P}_2\right) \]

Por otro lado, siendo \(|U_i|\) la cardinalidad del conjunto \(U_i\), se definen las siguientes relaciones:

\[ T_i = \frac{|U_1 \cap U_2|}{|U_i|} \ \ \ \ \ \ i =1, 2. \]

De esta forma, \(T_1\) y \(T_2\) corresponde al porcentaje de traslape de las subpoblaciones. De la misma manera, definiendo a \(R_{1,2}\) como la correlación de Pearson entre los datos observados de ambas subpoblaciones, entonces la covarianza entre este par de estimadores estaría determinada por la siguiente relación (Kish 2004):

\[ Cov(\hat{P}_1, \hat{P}_2) = \sqrt{Var(\hat{P}_1)}\sqrt{Var(\hat{P}_2)}\sqrt{T_1}\sqrt{T_2}R_{1,2} \]

En esta instancia, es útil recordar que si las poblaciones \(U_1\) y \(U_2\) son estratos (o agregaciones de estratos) que inducen conjuntos dijuntos y la selección de la muestra en cada uno es independiente por diseño, entonces \(Cov(\hat{P}_1, \hat{P}_2) = 0\). Si, por otro lado, no existe independencia en el muestreo de ambas poblaciones, entonces \(R_{1,2} \neq 0\) necesariamente. Es útil recordar que esta correlación se debe evaluar a través de las UPM. Siguiendo con el ejemplo, a pesar de que las subpoblaciones son niños y niñas, \(R_{1,2} \neq 0\). Por otro lado, para encontrar el tamaño de muestra óptimo, es útil realizar los siguientes supuestos:

  1. Asumir que las subpoblaciones son grandes y por ende \(N_1=N_2=N\).
  2. Por lo anterior, asumir que los tamaños de muestra pueden ser iguales, tales que \(n_1=n_2=n\).

Nótese a su vez que, si el levantamiento de las observaciones no puede ser realizado utilizando muestreo aleatorio simple, sino que por el contrario, la muestra aleatoria fue seleccionada mediante un diseño de muestreo complejo con un efecto de diseño8 \((DEFF)\) no ignorable y mayor a uno, entonces la varianza tomaría la siguiente forma

\[ Var(\hat{\theta})=\frac{DEFF}{n}\left(1-\frac{n}{N}\right)S^2_{\theta} \]

En donde, definiendo a \(Q_i = 1-P_i\), se tiene que:

\[ S^2_{\theta} = P_1Q_1+P_2Q_2 - 2 \sqrt{T_1}\sqrt{T_2}R_{1,2} \sqrt{P_1Q_1}\sqrt{P_2Q_2} \] De esta manera, un intervalo de confianza del 95% para la diferencia de proporciones está dado por

\[ IC(95\%)_{\theta}=\hat{\theta} \pm z_{1-\alpha/2} \sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)S^2_{\theta}} \]

Lo anterior quiere decir que el margen de error \((ME)\) de la encuesta debe ser tal que:

\[ ME < z_{1-\alpha/2} \sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)S^2_{\theta}} \]

Por lo tanto, despejando \(n\), se tiene que la muestra en cada subgrupo debe mayor que:

\[ n> \dfrac{DEFF \ S^2_{\theta}}{\dfrac{ME^2}{z_{1-\alpha/2}^2}+\dfrac{DEFF \ S^2_{\theta}}{N}} \]

Nótese que, dependiendo de los pocentajes de traslape \(\sqrt{T_1}\), \(\sqrt{T_2}\) y de la correlación de la característica de interés en ambas subpoblaciones \(R_{1,2}\), la varianza \(S^2_{\theta}\) tomará diferentes formas, como se detalla a continuación:

  1. Si no hay traslape, \(T_1 = T_2 = 0\), y \(S^2_{\theta} = P_1Q_1+P_2Q_2\).
  2. Si hay traslape completo, \(T_1 = T_2 = 1\) y \(S^2_{\theta} = P_1Q_1+P_2Q_2 - 2 R_{1,2} \sqrt{P_1Q_1}\sqrt{P_2Q_2}\).
  3. Si hay traslape parcial y balanceo, \(T_1 = T_2 = T\) y si además se considera que las varianzas en cada subgrupo o periodo son similares \(P_1Q_1 = P_2Q_2 = PQ\), entonces \(S^2_{\theta} = 2PQ (1- TR_{1,2})\).

8.7.1.1 Covarianza en comparaciones mensuales

Suponga que se quiere comparar la tasa de desempleo nacional entre dos meses consecutivos. En este escenario, asumiendo que existe independencia en el muestreo de los dos meses consecutivos, el porcentaje de traslape de muestra entre los dos meses (que por diseño es nulo) es igual a cero. Por lo tanto, \(T_1 = T_2 = 0\). Luego, el término de la covarianza se anula. En resumen, la varianza del estimador en este caso sería igual a:

\[ Var(\hat{P}_1-\hat{P}_2) = Var(\hat{P}_1) + Var(\hat{P}_2) \]

8.7.1.2 Covarianza en comparaciones trimestrales o anuales

Bajo un esquema rotativo 2(2)2, suponga que se quiere comparar la tasa de desempleo nacional entre trimestres consecutivos o entre el mismo mes de dos años consecutivos. En este escenario no existe independencia en el muestreo de los dos trimestres consecutivos puestos que la estructura del panel garantiza un traslape del 50%. En este caso \(T_1 = T_2 \approx 0.5\).

Por otro lado, existe una correlación natural entre las viviendas comunes en el panel que se midieron en los periodos de interés, por lo tanto \(R_{1,2} \neq 0\). Note que esta correlación se calcula sobre los individuos comunes en el panel y sobre la variable dicotómica que induce la tasa de desempleo (perteneciente a la población económicamente activa). En resumen, el término de covarianza en este caso sería igual a:

\[ Cov(\hat{P}_1, \hat{P}_2) = \frac{1}{2}\sqrt{Var(\hat{P}_1)}\sqrt{Var(\hat{P}_2)}R_{1,2} \]

8.7.1.3 Covarianza en comparaciones de un mismo mes

En primer lugar, suponga que se quiere comparar la tasa de desempleo entre hombres y mujeres en un mismo mes. En este escenario no existe independencia en el muestreo de hombres y mujeres puesto que estos grupos no son estratos de muestreo. En este caso \(T_1\) es la proporción de hombres y \(T_2\) es la proporción de mujeres. Nótese que \(T_1 \neq T_2\).

Como se comentó anteriormente, existe una correlación natural entre las UPM que fueron seleccionadas y que contienen tanto a hombres como a mujeres, por lo tanto \(R_{12} \neq 0\). Note que esta correlación se calcula sobre todos los individuos pertenecientes a la fuerza de trabajo y sobre la variable dicotómica que induce la tasa de desempleo. En resumen, el término de covarianza en este caso sería igual a:

\[ Cov(\hat{P}_1, \hat{P}_2) = \sqrt{Var(\hat{P}_1)}\sqrt{Var(\hat{P}_2)}\sqrt{T_1}\sqrt{T_2}R_{1,2} \]

Por otro lado, suponga que se quiere comparar la tasa de desempleo entre dos regiones del mismo país en un mismo mes. En este escenario existe independencia en el muestreo de las dos regiones porque la selección es independiente en cada región Esta independencia se tiene por definición del diseño de muestreo puesto que ambas regiones son agrupaciones disjuntas entre estratos de muestreo. En este caso \(T_1\) es la proporción de personas de la primera ciudad y \(T_2\) es la proporción de personas de la segunda ciudad. Además, tampoco no existe una correlación entre las UPM que fueron seleccionadas entre estas regiones porque la selección fue independiente, por lo tanto \(R_{12} = 0\). En resumen, el término de covarianza es nulo y por ende la varianza del estimador sería igual a:

\[ Var(\hat{d}) = Var(\hat{P}_1) + Var(\hat{P}_2) \]

8.7.2 Tamaño de muestra para la estimación del impacto en dos mediciones longitudinales

Para las encuestas que planean un seguimiento panel o de panel rotativo, es posible contemplar escenarios en los que se quiera estimar el efecto de una intervención, definido como la diferencia en diferencias de las proporciones de interés. De esta forma, el efecto se define como:

\[ \theta = (P_{1,1}-P_{2,1})-(P_{1,2}-P_{2, 2}) \]

En donde \(P_{i,j}\) \((i, j = 1, 2.)\) corresponden a las proporciones del grupo \(i\) en la oleada \(j\). Entonces el tamaño de muestra mínimo9 necesario para lograr una estimación confiable de esta diferencia, con menos del \(ME \times 100\%\) de margen de error, es:

\[ n \geq \dfrac{DEFF \ S^2_{\theta}}{\dfrac{ME^2}{z_{1 - \alpha/2}^2}+\dfrac{DEFF \ S^2_{\theta}}{N}} \]

En donde

\[ S^2_{\theta} = (P_{1,1}Q_{1,1}+P_{1,2}Q_{1,2}+P_{2,1}Q_{2,1}+P_{2,2}Q_{2,2})(1-TR) \]

En donde \(T\) corresponde a la tasa de traslape (\(T=1\) corresponde a un panel completo, \(T=0.5\) a un semi-panel con traslape del 50% y el caso extremo \(T=0\) a una encuesta en donde no hay traslape) y \(R\) se define como la correlación entre las dos oleadas (\(R=0\) implica que no hay correlación entre los dos momentos, \(R=-1\) implica una máxima correlación negativa entre los dos momentos y \(R=1\) implica una correlación positiva máxima entre los dos momentos).

Por ejemplo, en una encuesta de fuerza laboral intemediada por alguna intervención gubernamental, puede ser de interés la evaluación del efecto de esa política de asistencia laboral entre hombres y mujeres en dos periodos de tiempo.

8.7.3 Tamaño de muestra para el contraste de hipótesis en la diferencia de proporciones

Suponga que el investigador desea realizar el contraste de una hipótesis de interés. En particular, suponga que hay dos grupos de interés en la población finita y que la hipótesis está inducida por la diferencia de las proporciones en las dos poblaciones. El investigador considera que la diferencia es significativa para el fenómeno en cuestión si es mayor que un valor \(D\) definido de antemano y conocido como el tamaño del efecto que el investigador desea detectar.

Nótese que la significación estadística, inducida por un valor-p, no siempre tiene la misma connotación de significación científica o económica, que puede presentarse en fenómenos raros, para los cuales no necesariamente se gozaría de significación estadística. Por lo tanto el sistema de hipótesis que se quiere contrastar es el siguiente:

\[ H_o: P_1-P_2=0 \ \ \ \ \ vs. \ \ \ \ \ H_a: P_1 -P_2 =D > 0 \]

Nótese que, acudiendo a la distribución normal de los estimadores de las proporciones, y suponiendo independencia en el muestreo de los subgrupos, la regla de decisión en este caso induce el rechazo de la hipótesis nula cuando

\[ \dfrac{\hat{P}_1-\hat{P}_2}{\sqrt{Var(\hat{P}_1-\hat{P}_2)}} > z_{1-\alpha} \]

Si las características del estudio implican que el diseño de muestreo es complejo con un \(DEFF > 1\), entonces esta regla de decisión rechaza la hipótesis nula si

\[ \dfrac{\hat{P}_1-\hat{P}_2}{\sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)(P_1Q_1+P_2Q_2)}} > z_{1-\alpha} \]

En este caso, es necesario controlar la probabilidad de cometer el error tipo-2 (aceptar una hipótesis nula, dado que ésta es falsa). A esta probabilidad se le conoce como potencia y, suponiendo que nuestro interés está en detectar un tamaño del efecto \(P_1 -P_2 =D\), la potencia está dada por

\[\begin{align*} \beta &\leq Pr\left(\dfrac{\hat{P}_1-\hat{P}_2}{\sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)(P_1Q_1+P_2Q_2)}} > z_{1-\alpha} \left. | \right. P_1 -P_2 =D \right)\\ &= Pr\left(\dfrac{(\hat{P}_1-\hat{P}_2)-D}{\sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)(P_1Q_1+P_2Q_2)}} > z_{1-\alpha} - \dfrac{D}{\sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)(P_1Q_1+P_2Q_2)}} | P_1 -P_2 =D \right)\\ &= 1-\Phi\left(z_{1-\alpha} - \dfrac{D}{\sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)(P_1Q_1+P_2Q_2)}} \right) \end{align*}\]

Por lo anterior, \[ 1-\beta \geq \Phi\left(z_{1-\alpha} - \dfrac{D}{\sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)(P_1Q_1+P_2Q_2)}} \right) \]

Entonces, dado que la función \(\Phi()\) es creciente, se tiene que

\[ z_{1-\beta} \geq z_{1-\alpha} - \dfrac{D}{\sqrt{\frac{DEFF}{n}\left(1-\frac{n}{N}\right)(P_1Q_1+P_2Q_2)}} \]

En consecuencia, al despejar \(n\), se tiene que la muestra en cada subgrupo debe mayor que:

\[ n \geq \dfrac{DEFF(P_1Q_1+P_2Q_2)}{\dfrac{D^2}{(z_{1-\alpha}+z_{\beta})^2}+\dfrac{DEFF(P_1Q_1+P_2Q_2)}{N}} \]

Referencias

———. 2004. Statistical Design for Research. Wiley classic biblioteca edición. Wiley. https://www.wiley.com/en-us/Statistical+Design+for+Research-p-9780471691204.

  1. Esta metodología también aplica en el caso en el que \(U \supset (U_1 \cup U_2)\).↩︎

  2. Recuerde que si el muestreo es aleatorio simple, el efecto de diseño es \(DEFF=1\).↩︎

  3. Note que el tamaño de muestra de toda la encuesta es \(4n\), en las dos oleadas, puesto que se debe seleccionar \(n\) elementos en cada grupo y en cada oleada.↩︎