16.5 Pruebas de hipótesis sobre indicadores agregados

Para decidir si un cambio en la dinámica de los parámetros de interés es significativo entre dos periodos de tiempo es necesario llevar a cabo una prueba de hipótesis. Por ejemplo, tomando en cuenta la dinámica del mercado de trabajo, es posible realizar comparaciones entre dos trimestres seguidos o entre dos años consecutivos para conocer, por ejemplo, si hay un cambio significativo e importante en la reducción de la desocupación (entre grupos y en distintos periodos del tiempo).

Para realizar comparaciones entre grupos de un mismo corte transversal (por ejemplo comparar la situación laboral de hombres y mujeres en un mes específico) es necesario tener en cuenta que el muestreo de la primera etapa es de UPM y que el tamaño de muestra de hombres y mujeres es aleatorio. Para realizar comparaciones nacionales o regionales en dos periodos de tiempo (por ejemplo comparar la situación laboral de un país entre dos trimestres) es necesario tener en cuenta que el muestreo puede no ser independiente entre trimestres ni entre años, siendo este el caso de las encuestas que contemplan diseños de panel rotativo. Considere el siguiente sistema de hipótesis:

\[ H_0: \theta_2 - \theta_1 = 0 \ \ \ \ vs. \ \ \ \ H_1: \theta_2 - \theta_1 \neq 0 \]

Para llevar a cabo la prueba de hipótesis trabajamos con el siguiente estimador de diferencias:

\[ \hat{\Delta} = \hat{\theta}_2 - \hat{\theta}_1 \]

La varianza asociada a este estimador está dada por

\[ Var(\hat{\Delta}) = Var(\hat{\theta}_2) + Var(\hat{\theta}_1) - 2 Cov(\hat{\theta}_1, \hat{\theta}_2) \]

Y por último, el término de covarianza se puede escribir como

\[ Cov(\hat{\theta}_1, \hat{\theta}_2) = \sqrt{Var(\hat{\theta}_1)}\sqrt{Var(\hat{\theta}_2)}\sqrt{T_1}\sqrt{T_2}R_{12} \]

Existen muchos escenarios de comparación que son de interés cuando se analizan datos de una encuesta de empleo. Estas comparaciones se hacen más complejas cuando se incluye en el análisis el diseño de panel de la encuesta. Sin embargo, cuando se cumple el siguiente principio no habrá lugar a confusión

A no ser que los dos estimadores puntuales estén compuestos de observaciones provenientes de un conjunto disyunto de UPM, el término de covarianza no será nulo.

En general, no es posible generalizar la estructura de varianza en una base de datos agregada, pero tomando como punto de partida los ejemplos expuestos en el capítulo de tamaño de muestra, se pueden identificar tres escenarios de interés. En primer lugar, al suponer que existe independencia en el muestreo de dos meses consecutivos. En este caso, \(T_1 = T_2 = 0\), luego, el término de la covarianza se anularía. En segundo lugar, en un diseño de panel 2(2)2, si se quiere comparar estimadores nacionales entre trimestres consecutivos o entre el mismo mes de dos años consecutivos, entonces \(T_1 = T_2 \approx 0.5\) y \(R_{12} \neq 0\). En este caso, el término de covarianza sería igual a: \(Cov(\hat{\theta}_1, \hat{\theta}_2) = \frac{1}{2}\sqrt{Var(\hat{\theta}_1)}\sqrt{Var(\hat{\theta}_2)}R_{12}\). Por último, si se quiere comparar estimadores entre subgrupos en un mismo mes, se pueden distinguir dos casos de interés:

  • Si no existe independencia en el muestreo de los subgrupos (por ejemplo hombres y mujeres). Por no ser estratos de muestreo, entonces \(T_1 \neq T_2\) y \(R_{12} \neq 0\), y el término de covarianza en este caso sería igual a \(Cov(\hat{\theta}_1, \hat{\theta}_2) = \sqrt{Var(\hat{\theta}_1)}\sqrt{Var(\hat{\theta}_2)}\sqrt{T_1}\sqrt{T_2}R_{12}\).

  • Si existe independencia en el muestreo de los subgrupos (por ejemplo dos ciudades principales o dos regiones). Por ser estratos de muestreo \(R_{12} = 0\), y el término de covarianza será nulo.

Una vez se ha concluido la estructura de varianza del estimador de interés, el siguiente paso es definir el estadístico de prueba para determinar si el parámetro ha cambiado entre grupos o a lo largo del tiempo; el cual toma la siguiente expresión:

\[ t = \frac{\hat{\Delta}}{\sqrt{Var(\hat{\Delta})}} \]

Este estadístico de prueba sigue una distribución t-student con \(gl\) grados de libertad, los cuales están dados por la resta entre el número de UPM seleccionadas menos el número de estratos de muestreo considerados en la agregación. De esta forma, se tiene que:

\[ gl = \sum_{h=1}^H (n_{Ih} - 1) = \sum_{h=1}^H n_{Ih} - H = \#UPM - \#Estratos \]

Los grados de libertad permiten tener una inferencia precisa a medida que crecen. Por ejemplo, considere por ejemplo el percentil 0.975 para el cual los valores críticos de la distribución varían con respecto a sus grados de libertad: \(t_{0.975, 1}=12.7\), \(t_{0.975, 20}=2.08\), \(t_{0.975, 40}=2.02\), \(t_{0.975, \infty}=1.96\). Los grados de libertad son determinantes a la hora de hacer inferencias dentro de subpoblaciones de interés. En este caso los grados de libertad no se consideran fijos sino variables. Korn y Graubard (1999) proponen el siguiente método de cálculo sobre los grados de libertad en subpoblaciones:

\[ gl_{subpoblación} = \sum_{h=1}^H v_h(n_{Ih} - 1) \]

En donde \(v_h\) es una variable indicadora que toma el valor uno si el estrato \(h\) contiene uno o mas casos de las subpoblaciones de interés y toma el valor cero en otro caso.

Referencias

Korn, Edward Lee, y Barry I. Graubard. 1999. Analysis of health surveys. Wiley.