16.4 Efecto del tipo de encuesta en la eficiencia de los indicadores

Lograr una estimación adecuada del error de muestreo en las comparaciones de múltiples periodos de tiempo, ya sea con la agregación de datos o no, debe ser una de las principales tareas del investigador. Además, dependiendo del parámetro, la naturaleza del error de muestreo cambia así como el tamaño de muestra requerido para satisfacer las necesidades de precisión de las estimaciones. A continuación se ilustra con diferentes tipos de parámetros.

16.4.1 Cambios netos

Considere el cambio neto de la media de la variable de interés \(y\) en dos periodos de tiempo (\(t_2\) y \(t_1\))

\[ \Delta = \bar{y}_2 - \bar{y}_1 \]

Este parámetro de cambio en los dos periodos de tiempo es estimado de forma aproximadamente insesgada mediante la siguiente expresión:

\[ \hat{\Delta} = \hat{\bar{y}}_2 - \hat{\bar{y}}_1 = \frac{\sum_{k\in s_2}\frac{y_{k}}{\pi_k}}{\sum_{k\in s_2}\frac{1}{\pi_k}} - \frac{\sum_{k\in s_1}\frac{y_{k}}{\pi_k}}{\sum_{k\in s_1}\frac{1}{\pi_k}} \]

En donde \(s_2\) y \(s_1\) representan las muestras seleccionadas en los periodos de interés y \(\pi_k\) es la probabilidad de inclusión del elemento \(k\). La varianza del estimador de cambio se calcula mediante la siguiente expresión:

\[ Var(\hat{\Delta}) = Var(\hat{\bar{y}}_2) + Var(\hat{\bar{y}}_1) - 2Cov(\hat{\bar{y}}_2, \hat{\bar{y}}_1) \]

En general, el último término se puede expresar como

\[ 2Cov(\hat{\bar{y}}_2, \hat{\bar{y}}_1) = 2\sqrt{Var(\hat{\bar{y}}_2)}\sqrt{Var(\hat{\bar{y}}_1)}\sqrt{T_2}\sqrt{T_1}R_{12} \]

En donde \(T_2\) y \(T_1\) representan el porcentaje de muestra común que se traslapa en ambos levantamientos y \(R_{12}\) representa la correlación de la variable de interés \(x\) en los periodos observados. Suponiendo que la variación de la variable de interés es homogénea en ambos periodos \(Var(\hat{\bar{y}}_1) = Var(\hat{\bar{y}}_2) = Var(\hat{\bar{y}})\) y que el traslape es común por diseño \(T_2 = T_1 = T\), entonces la expresión de la varianza se reduce de la siguiente manera:

\[ Var(\hat{\Delta}) = 2Var(\hat{\bar{y}}) - 2{Var(\hat{\bar{y}})}TR_{12} =2Var(\hat{\bar{y}})(1-TR_{12}) \]

Kish (2004) comenta que la varianza de este indicador cambiará de acuerdo al tipo de encuesta que se elija. En efecto:

  • Encuesta repetida: en donde \(T=0\) y \[Var(\hat{\Delta}) = 2Var(\hat{\bar{y}})\]
  • Encuesta de panel, en donde \(T=1\), \(R_{12} > 0\) y \[Var(\hat{\Delta}) = 2Var(\hat{\bar{y}})(1-R_{12})\]
  • Encuesta rotativa: en donde \(T\neq 0\), \(R_{12} > 0\) y \[Var(\hat{\Delta}) = 2Var(\hat{\bar{y}})(1-TR_{12})\]

Además, si se supone que la correlación es positiva para la variable de interés en los dos periodos de tiempo, entonces se tiene la siguiente conclusión:

\[ 2Var(\hat{\bar{y}})(1-R_{12}) < 2Var(\hat{\bar{y}})(1-TR_{12}) < 2Var(\hat{\bar{y}}) \]

Es decir que se necesita un tamaño de muestra menor para medir los cambios netos usando un diseño panel que un diseño sin traslape en una encuesta repetida. Un camino medio es el diseño rotativo.

16.4.2 Promedio trimestral

Considere una encuesta continua y mensual en donde se quiere estimar el promedio trimestral de la variable de interés \(x\) en tres periodos de tiempo (\(t_3\), \(t_2\) y \(t_1\))

\[ \Theta = \frac{\bar{y}_3 + \bar{y}_2 + \bar{y}_1}{3} \]

Un estimador del promedio trimestral que es aproximadamente insesgado está dado mediante la siguiente expresión:

\[ \hat{\Theta} = \frac{1}{3} \left( \hat{\bar{y}}_3 + \hat{\bar{y}}_2 + \hat{\bar{y}}_1 \right) = \frac{1}{3}\left( \frac{\sum_{k\in s_3}\frac{y_{k}}{\pi_k}}{\sum_{k\in s_3}\frac{1}{\pi_k}} + \frac{\sum_{k\in s_2}\frac{y_{k}}{\pi_k}}{\sum_{k\in s_2}\frac{1}{\pi_k}} + \frac{\sum_{k\in s_1}\frac{y_{k}}{\pi_k}}{\sum_{k\in s_1}\frac{1}{\pi_k}} \right) \]

En donde \(s_3\), \(s_2\) y \(s_1\) representan las muestras seleccionadas en los periodos de interés y \(\pi_k\) es la probabilidad de inclusión del elemento \(k\). La varianza del estimador del promedio trimestral se calcula mediante la siguiente expresión:

\[ \begin{split} Var(\hat{\Theta}) & = \frac{1}{9}[Var(\hat{\bar{y}}_3) + Var(\hat{\bar{y}}_2) + Var(\hat{\bar{y}}_2) + \\ &2Cov(\hat{\bar{y}}_3, \hat{\bar{y}}_2)) + 2Cov(\hat{\bar{y}}_3, \hat{\bar{y}}_1)) + 2Cov(\hat{\bar{y}}_2, \hat{\bar{y}}_1)] \end{split} \]

Suponiendo que la variación de la variable de interés es homogénea en los tres periodos y que el traslape es común por diseño y que los errores de muestreo son débilmente estacionarios (media y correlación constante) entre dos y tres meses, entonces la expresión de la varianza se reduce de la siguiente manera:

\[ Var(\hat{\Theta}) = \frac{1}{9} Var(\hat{\bar{y}})[3 + 6TR] \]

En donde \(R=R_{12}=R_{23}=R_{13}\) es la correlación constante de la variable de interés en dos y tres meses (asumida homogénea). Nótese que la varianza de este indicador cambiará de acuerdo al tipo de encuesta que se elija:

  • Encuesta repetida: en donde \(T=0\) y \[Var(\hat{\Theta}) = \frac{1}{3} Var(\hat{\bar{y}})\]
  • Encuesta de panel, en donde \(T=1\), \(R > 0\) y \[Var(\hat{\Theta}) = \frac{1}{9} Var(\hat{\bar{y}}) [3+6R]\]
  • Encuesta rotativa: en donde \(T\neq 0\), \(R > 0\) y \[Var(\hat{\Theta}) = \frac{1}{9} Var(\hat{\bar{y}}) [3+6TR]\]

De esta forma, si se supone que la correlación es positiva para la variable en los tres periodos de tiempo, entonces se tiene la siguiente conclusión:

\[ \frac{1}{9} Var(\hat{\bar{y}}) [3+6R] > \frac{1}{9} Var(\hat{\bar{y}}) [3+6TR] > \frac{1}{3} Var(\hat{\bar{y}}) \]

Es decir que se necesita un tamaño de muestra mayor para estimar un promedio trimestral usando un diseño panel que un diseño sin traslape. De la misma forma, un camino intermedio es el diseño de panel rotativo.

Referencias

———. 2004. Statistical Design for Research. Wiley classic biblioteca edición. Wiley. https://www.wiley.com/en-us/Statistical+Design+for+Research-p-9780471691204.