16.2 Factores de expansión y estimadores de muestreo

Si el investigador está interesado en estimar la tasa de desempleo anual sobre una encuesta rotativa, que se lleva a durante los cuatro trimestres del año, es posible usar los cuatro conjuntos de datos y unir los trimestres para estimar la tasa de desempleo anual. Una solución inicial a este problema consiste en agregar las cuatro bases de datos y dividir los pesos de muestreo de cada periodo por un factor de cuatro. El anterior procedimiento induce estimadores puntuales aproximadamente insesgados, aunque las estimaciones de los errores estándar se tornan un poco más complicadas, puesto que se debe concatenar exhaustivamente las UPM (o incluso crear unidades de varianza).

Por supuesto, las encuestas que utilizan diseños rotativos, en donde un hogar es entrevistado en varias ocasiones, deben adjuntar dos clases de pesos de muestreo: los transversales y los agregados. Los pesos transversales, discutidos en las secciones anteriores, son aquellos inducidos por el diseño de muestreo de la encuesta en cada aplicación y que permiten obtener estimaciones de los parámetros de interés de forma periódica (mensual, trimestral o semestral). De esta forma, por ejemplo en una encuesta de fuerza de trabajo, los datos transversales se usarán para producir estimaciones periódicas de la participación en la fuerza de trabajo, o de la tasa de pobreza, o de la tasa de desempleo, etc. Por ejemplo, la estimación de la tasa de desempleo usa un estimador de razón, definido de la siguiente forma

\[\hat\theta=\frac{\sum_s d_ky_k}{\sum_s d_kz_k}\]

En donde, para la persona \(k\)-ésima, \(d_k\) representa su peso de muestreo, \(y_k\) representa su estado de ocupación (específicamente, \(y_k=1\) si la persona está desempleada) y \(z_k\) es su estado en la fuerza de trabajo (específicamente, \(z_k=1\) si la persona pertenece a la población económicamente activa). Esta estrategia de estimación asume que cada persona se representa a sí misma y a otras más en la población. Nótese que los pesos transversales asignados estarán determinados por la probabilidad de selección de las UPM, la probabilidad de selección del hogar dentro de la UPM, el ajuste por ausencia de respuesta en ese mismo mes, ajustes por elegibilidad, calibración, entre otros. Por tales razones, aunadas a la incorporación de la nueva muestra en un diseño rotativo, además de la ausencia de respuesta y también por los cambios en el tamaño de la población de interés, el peso de un individuo puede cambiar de un periodo a otro. De esta forma, si \(d_k^{t-1}\) y \(d_k^{t}\) representan el peso de muestreo del individuo \(k\) en los periodos \(t-1\) y \(t\), respectivamente, es casi seguro que

\[d_k^{t-1} \neq d_k^t\]

Es necesario crear un nuevo conjunto de factores de expansión (pesos agregados) que soporten la inferencia agregada. Por un lado, nótese que cada factor de expansión en las encuestas mensuales se define como la cantidad de hogares que el hogar seleccionado representa en ese periodo de referencia. Por tanto, para mantener esta consistencia es posible inicializar la construcción de los factores de expansión agregados realizando una modificación proporcional a los pesos originales de los levantamientos mensuales. Por ejemplo, si se quisieran agregar tres meses, para formar una base de datos trimestral, sería necesario definir un factor de expansión trimestral \(d_{k}^+\) que tenga en cuenta la siguiente relación:

\[ \hat{t}_y = \sum_{s1 \cup s2 \cup s3} d_{k}^+ y_k \propto \sum_{s_1} d_{1k} y_k + \sum_{s_2} d_{2k} y_k + \sum_{s_3} d_{3k} y_k \]

En donde \(d_{ik}\) es el factor de expansión del mes \(i\)-ésimo \((i = 1,2,3)\). En particular, para la esta agregación trimestral, el factor de expansión mensual de cada individuo y hogar debe ser multiplicado por el siguiente ponderador:

\[ a_i = \frac{\sum_{k\in s_i}d_{ik}}{\sum_{i=1}^{3}\sum_{k\in s_i}d_{ik}}; \ \ \ \ \ \ i= 1, 2 ,3. \]

En donde \(s_i\) representa la muestra de respondientes efectivos en el mes \(i\)-ésimo. De esta forma, los pesos inciciales agregados estarían dados por la siguiente expresión:

\[ d_{ik}^+ = a_i \times d_{ik} ; \ \ \ \ \ \ k\in s_i \]

De la misma manera, para una agregación anual, el factor de expansión debe ser modificado de manera proporcional a los pesos originales de los levantamientos mensuales (o trimestrales) teniendo en cuenta la siguiente relación

\[ \hat{t}_y = \sum_{s_1 \cup ... \cup s_{12}} d_{k}^+ y_k \propto \sum_{s_1} d_{1k} y_k + \sum_{s_2} d_{2k} y_k + \cdots + \sum_{s_{12}} d_{12k} y_k \]

Por lo tanto, en la agregación anual el factor de expansión de cada individuo y hogar debe ser multiplicado por el siguiente ponderador:

\[ b_i = \frac{\sum_{k\in s_i}d_{ik}}{\sum_{i=1}^{12}\sum_{k\in s_i}d_{ik}} ; \ \ \ \ \ \ i= 1, \ldots, 12. \]

Por consiguiente, los pesos iniciales agregados estarían dados por la siguiente expresión:

\[ d_{ik}^+ = b_i \times d_{ik} ; \ \ \ \ \ \ k\in s_i \]

La nueva estructura de los factores de expansión debe garantizar que la suma de los pesos en las bases agregadas esté acorde con la población a la cual se quiere representar. En términos matemáticos, se debe siempre verificar que las siguientes relaciones se mantengan en las bases agregadas:

\[ \sum_{k\in s^3} d_{ik}^+ = \sum_{i=1}^{3}\sum_{s_i} a_i d_{ik} \approx N \]

En donde \(s^3=s1 \cup s2 \cup s3\) corresponde a la muestra agregada de los tres primeros meses. De la misma manera, en el caso de la agregación anual, también conviene verificar la misma relación; esto es:

\[ \sum_{k\in s^{12}} d_{ik}^+ = \sum_{i=1}^{12}\sum_{s_i} b_i d_{ik} \approx N \]

En donde \(s^{12}=s_1 \cup ... \cup s_{12}\) corresponde a la muestra agregada anual. Además de las verificaciones sobre los tamaños nacionales, también es recomendable realizar este mismo proceso en dominios más específicos para verificar que la ponderación es correcta; por ejemplo, en las principales ciudades del país, en las áreas rural/urbano, en las provincias, en los grupos de sexo, grupos de edad, entre otros. Una vez que se ha llevado a cabo el proceso de cómputo de los nuevos pesos agregados en la bases de datos (trimestrales o anuales) es necesario que se realice nuevamente un proceso de calibración sobre las variables involucradas en la calibración mensual de los factores de expansión.

Ante la ausencia de proyecciones poblacionales trimestrales o anuales, es posible escoger el mes intermedio o el promedio de los meses que intervienen en la agregación. Se espera que este ajuste final de los pesos sea minúsculo y no afecte la estructura de la distribución de los pesos mensuales puesto que se trata de calibrar unos pesos que originalmente fueron calibrados en las publicaciones mensuales. Por otro lado, debido a que este último paso se realiza con propósitos de mantener la consistencia con las publicaciones, es posible que la calibración se vea reducida al considerar menos restricciones sobre los totales auxiliares más relevantes.

Se recalca que las agregaciones deberían contemplar a todas las viviendas que fueron partícipes de la muestra mensuales en el trimestre móvil. De la misma forma, las agregaciones anuales deben contemplar las viviendas que han sido seleccionadas más de una vez (debido al esquema de rotación del panel) y por ende todas sus mediciones deben aparecer en la base de datos tantas veces como fueron visitadas.

Para ilustrar el procedimiento, considere una encuesta de hogares continua que mes a mes recolecta información. Suponga que esta encuesta sigue un esquema rotativos trimestral 2(2)2, y que las muestras mensuales son independientes. Es decir que la rotación de los paneles se planeó de manera trimestral y, a su vez, esta muestra es repartida de forma balanceada e independiente en los tres meses que conforman el trimeste. En este caso, las agregaciones trimestrales no deberían contemplar ninguna vivienda con mediciones repetidas si es que el esquema de panel no las contempla. Nótese que es necesario realizar el correspondiente ajuste a los pesos de muestreo sin diferenciar si la vivienda apareció una vez o fue medida en más de una ocasión.

En el escenario de ejemplo, en la estimación del error de muestreo para las agregaciones trimestrales se debe considerar que el muestreo es independiente en los tres meses que componen el trimestre móvil y por ende la posibilidad de tener viviendas repetidas es casi nula. Nótese que el estimador para un total en la agregación trimestral tomará la siguiente forma de sumas mensuales parciales:

\[ \hat{t}_y = \sum_{s1} d_{1k}^+ y_k + \sum_{s2} d_{2k}^+ y_k + \sum_{s3} d_{3k}^+ y_k = \hat{t}_{y}^1 + \hat{t}_{y}^2 + \hat{t}_{y}^3 \]

En donde \(d_{ik}^+ = a_i \times d_{ik}\). En este caso, la varianza del estimador está dada por

\[ Var(\hat{t}_y) = Var(\hat{t}_{y}^1) + Var(\hat{t}_{y}^2) + Var(\hat{t}_{y}^3) \]

Sin embargo, en la estimación del error de muestreo para las agregaciones anuales se debe considerar que el muestreo no es independiente en los doce meses. En este caso, el estimador de interés sigue tomando la forma de sumas parciales mensuales:

\[ \hat{t}_y = \sum_{i=1}^{12}\sum_{s_i} d_{ik}^+ y_k = \sum_{i=1}^{12} \hat{t}_{y}^i \]

En donde \(d_{ik}^+ = b_i \times d_{ik}\). A diferencia de la agregación trimestral, la varianza de este estimador está supeditada a las covarianzas que se puedan crear al visitar las mismas UPM debido al esquema rotativo. Es decir:

\[ Var(\hat{t}_y) = \sum_{i=1}^{12} Var(\hat{t}_{y}^i) + 2 \sum_{i,j=1}^{12} \sum_{j < i} Cov(\hat{t}_{y}^i, \hat{t}_{y}^j) \]