17.2 Generación de bases longitudinales para dos periodos consecutivos

El análisis longitudinal de las encuestas de hogares es un insumo valioso en la toma de decisiones puesto que permite proveer una visión complementaria a los fenómenos sociales que no se puede obtener por otros medios. El seguimiento continuo a las unidades de observación no puede ser llevado a cabo en todas las encuestas continuas de la región, sino solamente en aquellas que contemplen esquemas rotativos en su planificación. Dado que en algunas encuestas, se contempla la asignación de la muestra a diferentes grupo de rotación, es posible analizar el comportamiento de los flujos brutos sobre indicadores tan importantes como los relacionados a la situación en la ocupación, la pobreza, entre otros.

En un contexto de estimación de cambios brutos con la definición de tablas de contingencia, Feinberg y Stasny (1983) asumen que las diferencias entre los pesos de muestreo en dos periodos de tiempo distintos ocurren solamente como resultado de los flujos naturales de entrada y salida de la población de interés. Por ejemplo, si el individuo es clasificado como empleado en ambos tiempos y \(w_k^{t-1}=300\) y \(w_k^{t}=305\), entonces el peso mínimo, 300, se añade a la celda (Empleado - Empleado) de la tabla de cambios brutos y la diferencia entre los pesos, 5, se añade a la celda (Fuera - Empleado). Si por el contrario, \(w_k^{t-1}=305\) y \(w_k^{t}=300\), entonces el peso mínimo, 300, se añade a la celda (Empleado - Empleado) de la tabla de cambios brutos y la diferencia entre los pesos, 5, se añade a la celda (Empleado - Fuera). Este enfoque supone que las diferencias entre los pesos están supeditadas a las fluctuaciones que se puedan presentar en la fuerza de trabajo.

El objetivo de esta sección es generar pesos longitudinales para todos los individuos pertenecientes a los paneles incumbentes de la muestra original en los dos primeros trimestre del 2020. Siguiendo la metodología de Verma, Betti, y Ghellini (2006), es necesario seguir un procedimiento secuencial para la creación de los factores de expansión en el panel. En este orden de ideas, primero es necesario crear el conjunto de pesos iniciales (trasnversales en el primer periodo) para luego definir los pesos finales (longitudinales en el primer y segundo periodo). A continuación, se resume el procedimiento:

Creación de pesos iniciales: teniendo en cuenta los pormenores del diseño de muestreo de la encuesta que selecciona una muestra de hogares y de personas que son miembros de estos hogares. Las ponderaciones iniciales se definen a partir de los factores de expansión transversales. Este proceso plantea al menos los siguientes pasos:
- Determinación de los pesos básicos con el ajuste de selección de paneles rotativos.
- Ajuste por ausencia de respuesta y cobertura.
Generación de los pesos longitudinales: la muestra debe ser modificada y ajustada para que refleje los cambios en la duración del panel para la población objetivo en los dos periodos de interés. En este caso se plantean al menos tres tipos de ajuste:
- Definición de la población longitudinal (supeditada a los hogares que salen y entran en el periodo de referencia).
- Ausencia de respuesta y pérdidas en la muestra debido a la atrición (ausencia de respuesta en el panel).
- Calibración de los pesos longitudinales.

El primer paso en la generación de los pesos longitudinales consiste en realizar una consolidación (combinación) de bases de datos, en donde se integren únicamente los periodos de interés. Es decir que este proceso producirá bases de datos de diferentes tamaños para dos, tres o cuatro periodos. En general, se esperaría contar con un mayor número de unidades observacionales en el primer caso (dos periodos) y un número menor de unidades observacionales en el último caso (cuatro periodos). Nótese que en el caso particular del ejemplo (encuesta con un esquema rotativo 4(0)1), no es posible realizar la integración de cinco periodos consecutivos, puesto que el esquema solo define el traslape de hasta cuatro periodos consecutivos.

En general, es necesario asumir que al combinar los paneles y crear una sola base de datos, se está agregando información (puesto que se repiten las mediciones de los individuos pertenecientes a los paneles involucrados), pero al mismo tiempo se reduce el número de unidades observacionales (puesto que el número de individuos en la muestra que coinciden en los periodos de interés necesariamente es menor al número de individuos en la muestra de un corte transversal).

17.2.1 Creación de los pesos longitudinales iniciales

Este primer paso empieza con la definición de los periodos consecutivos que se utilizarán en la combinación de las bases de datos. Si la combinación se realiza para el año 2020, se debe tener en cuenta que hubo un cambio abrupto que se presentó como respuesta a las restricciones de movilidad que trajo la pandemia, que a su vez configuró un cambio en el modo de recolección (de presencial a telefónico) a partir del segundo trimestre del 2020.

Una vez definidos los periodos de interés, se debe realizar la combinación de las correspondientes bases de datos transversales. Este procedimiento debe tener en cuenta únicamente a las unidades muestrales que respondieron sistemáticamente en cada uno de los periodos de interés. En el escenario de la combinación de dos periodos, si una unidad respondió en ambos periodos será incluida en la base de datos combinada, de lo contrario (si respondió en el primer periodo, pero no en el segundo y viceversa) no será incluida en la base de datos.

17.2.1.1 Pesos básicos

La determinación de los pesos iniciales viene supeditada a los pesos básicos ajustados por cobertura \(d_{1, k}\) del procesamiento transversal del primer trimestre que se quiere combinar. Por ejemplo, el primer escenario de la figura anterior resalta que se quiere combinar el primer trimestre con el segundo trimestre del 2020; en este caso se partiría de los pesos básicos ajustados por cobertura del primer trimestre del 2020. En el segundo escenario se combinan el segundo y el tercer trimestre del 2020, por tanto se partiría de los pesos básicos ajustados por cobertura y ausencia de respuesta del segundo trimestre del 2020.

En general, dado que cada panel es representativo del país y, se supone que debe tener las mismas características al momento de la selección, LaRoche (2003) plantea que los pesos básicos se crean a partir del inverso de la probabilidad de inclusión de los paneles, así:

\[ d_{1, k}^{básico} = \frac{d_{1, k}}{Pr(\text{selección de paneles})} \]

Al realizar la combinación de los dos primeros trimestres del 2020 en nuestro ejemplo es evidente que hay tres paneles coincidentes y como la muestra transversal contiene cuatro paneles, entonces \(Pr(\text{selección de paneles}) = \frac{3}{4}\). En cambio, por las condiciones asumidas para enfrentar la pandemia, cuando se realiza la combinación del segundo y tercer trimestre en el ejemplo se tiene que \(Pr(\text{selección de paneles}) = \frac{4}{4} = 1\).

Es importante notar que al combinar paneles, la inferencia que se realiza está supeditada al periodo del primer panel. Además, en este paso es indispensable corroborar que la suma de los pesos básicos esté cercana al tamaño de la población que se quiere representar. Es decir, \(\sum_{s^{(1)}} d_{1, k}^{básico} \approxeq N\); en donde \(s^{(1)}\) se define como el conjunto de respondientes en el primer periodo que pertenecen a los paneles coincidentes en la muestra para los periodos combinados.

De la misma forma, la metodología de la encuesta Survey of Labour and Income Dynamics (Naud 2002; LaRoche 2003) plantea que un primer paso para crear los pesos longitudinales es mediante el ajuste por el inverso de la probabilidad de traslape).

17.2.1.2 Ajuste por ausencia de respuesta

A continuación, sobre los pesos básicos es necesario realizar un ajuste por ausencia de respuesta, que debería estar supeditado a las covariables disponibles en el marco de muestreo, en registros administrativos o, teniendo en cuenta el diseño de muestreo rotativo, en rondas anteriores de la misma encuesta. En general, es recomendable tener en cuenta el paradigma principal en el manejo de la ausencia de respuesta, el cual indica que respondientes y no respondientes difieren en la mayoría de los casos. Por supuesto, aquellas unidades que no respondieron deberán ser excluidas de la base de datos puesto que su peso de muestreo es nulo; es decir \(d_{1, k}^{básico} = 0, \ \forall k \notin s_r^{(1)}\), en donde el conjunto \(s_r^{(1)}\) representa a las unidades que respondieron la encuesta en el primer periodo de la combinación.

En este esquema, es posible utilizar un enfoque basado en la estimación de las probabilidades de respuesta de cada individuo para ajustar los pesos básicos, para lo cual se necesita establecer una relación entre las unidades que respondieron y que no respondieron con las covariables auxiliares \(\mathbf{x}_{1}\). En otras palabras, es necesario asegurar que las covariables estén disponibles para toda unidad seleccionada en el primer periodo de interés, independientemente de su respuesta final. Para el manejo efectivo de la ausencia de respuesta se consideran las variables dicotómicas \(I_{1, k}\) y \(D_{1, k}\), que indican si el hogar pertenece a la muestra del primer periodo y si respondió a la encuesta, respectivamente. La probabilidad de respuesta estará supeditada al siguiente modelo:

\[ \phi_{1, k} = Pr(D_{1, k} = 1|I_{1, k} = 1) = f(\mathbf{x}_{1}, \boldsymbol\beta) \]

En la notación anterior, el conjunto de respondientes efectivos se define como aquel al que pertenecen las unidades muestrales que han respondido en el primer periodo de interés; además la función de enlace \(f\), es por lo general no lineal y su escogencia depende del investigador. Por otro lado, si se decide utilizar un modelo de regresión logística, entonces la estimación de las probabilidades de respuesta tendrá la siguiente forma:

\[ \hat{\phi}_{1, k} = \frac{\exp{(\mathbf{x}_{1}' \hat{\boldsymbol\beta})}}{1 +\exp{(\mathbf{x}_{1}' \hat{\boldsymbol\beta})}} \]

Una vez que se ha modelado la ausencia de respuesta, los pesos básicos son ajustados utilizando el inverso de la probabilidad de respuesta sobre los respondientes efectivos en el primer periodo de interés, así se conforma el primer conjunto de pesos iniciales de las bases de datos longitudinales:

\[ d_{1, k}^{inicial} = \frac{d_{1, k}^{básico}}{\hat{\phi}_{1, k}} \]

Es posible que, al construir la matriz de covariables para ajustar el modelo de respuesta, existan elementos que no respondieron en el primer periodo y que además no tengan información auxiliar porque su panel rotativo no se traslapa. En este caso, es posible calcular la tasa de respuesta efectiva y utilizarla como valor imputado a la probabilidad de respuesta \(\hat\phi_{1, k}\). También existen unidades que se acaban de incorporar al panel rotativo y por ende no respondieron y no tienen información auxiliar. En este caso, es necesario imputarles el factor de expansión ajustado del hogar al que pertenecen.

Como se mencionó en los capítulos anteriores, es necesario verificar las propiedades de balanceo y soporte común en el modelo de propensity score. Se esperaría que la distribución de las probabilidades de respuesta para las combinaciones de los dos trimestres combinados mostraran un buen balance entre respondientes y no respondientes (distribuciones similares) y que el soporte común de la probabilidad de respuesta excluya al cero y al uno.

17.2.2 Creación de los pesos longitudinales finales

En este último paso, después de haber creado lo pesos longitudinales iniciales, se hacen algunos ajustes concernientes al periodo de combinación de las bases longitudinales, a la ausencia de respuesta entre estos periodos, y finalmente se realiza la calibración final para generar los pesos definitivos de la base de datos longitudinal.

17.2.2.1 Definición de la población longitudinal

La población longitudinal está supeditada a todas aquellas unidades que han permanecido en la población de interés entre el primer y el segundo periodo. Por ejemplo, en el caso de la encuesta que ejemplifica este capítulo, la población longitudinal del primer semestre del 2020 serían todas las personas que estuvieron en la población objetivo del primer periodo y que han permanecido en la población hasta el segundo periodo, inclusive.

Por supuesto, es necesario tener en cuenta que entre ambos periodos pueden haber ocurrido cambios en la población, como personas que han dejado de pertenecer a la población objetivo (por diversos motivos como la muerte, reclutamiento, internamiento en alguna institución, migración, entre otros). Siendo así, la población de interés en el segundo periodo sí contiene a las personas que han entrado (nacimientos, migración, licenciamiento de alguna institución, etc.) a conformar la población de interés desde el primer periodo, mientras que la población longitudinal no los contiene.

Es en esta segunda instancia en donde nacen los pesos definitivos y se construye la base longitudinal que será usada para realizar los análisis de interés. En primer lugar, se define la muestra longitudinal \(s^{(2)}\)como aquella constituida por las unidades seleccionadas en ambos periodos de interés para los paneles coincidentes; es decir, por la intersección de las muestras transversales del primer periodo \(s^1\) y el segundo periodo \(s^2\):

\[ s^{(2)} = s^1 \boldsymbol\cap s^2 \]

La muestra \(s^{(2)}\) es representativa de la población longitudinal en los dos periodos combinados. En esta etapa, el factor de expansión longitudinal se define como idéntico al peso resultante de la sección anterior; es decir \(d_{2, k}^{inicial} = d_{1, k}^{inicial}\).

17.2.2.2 Ausencia de respuesta y atrición

La conformación de la base de datos longitudinal parte de los pesos iniciales creados en la sección anterior. Sin embargo, hay que tener en cuenta que existirán unidades que no respondieron en alguno de los periodos de la combinación. En general, se forman tres subconjuntos de no respondientes; el primero conformado por las unidades que sí respondieron en el primer periodo y que no respondieron en el segundo, el segundo definido por las unidades que no respondieron en el primer periodo y que sí respondieron en el segundo, el tercero conformado por las unidades que no respondieron en ninguno de los periodos. En cualquiera de los anteriores casos es necesario identificar estas unidades a las cuales se le asignará un peso longitudinal nulo; es decir

\[\begin{equation*} d_{2, k}^{inicial} = \begin{cases} d_{1, k}^{inicial}, &\ \forall k \in s_r^{(2)} \\ 0, &\ \forall k \notin s_r^{(2)} \end{cases} \end{equation*}\]

En donde el conjunto \(s_r^{(2)} = s_r^1 \boldsymbol\bigcap s_r^2\) representa a las unidades que respondieron la encuesta en ambos periodos de la combinación, es decir a todas las unidades respondientes en \(s^1\) que a la vez respondieron en \(s^2\). El raciocinio detrás de esta determinación es que, para todo efecto práctico de comparación entre periodos, los diseños de muestreo de las encuestas rotativas en la región inducen relativamente pocas combinaciones.

De la misma forma en que se realizó el ajuste en la sección anterior, es posible utilizar un enfoque basado en la estimación de las probabilidades de respuesta de cada individuo para ajustar los pesos iniciales, para lo cual se requiere de covariables auxiliares \(\mathbf{x}_{2}\) en el segundo periodo. Es así como se consideran las variables dicotómicas \(I_{2, k}\) y \(D_{2, k}\), que indican si la unidad pertenece a la muestra del segundo periodo y si respondió a la encuesta en el segundo periodo, respectivamente. La probabilidad de respuesta estará supeditada al siguiente modelo:

\[ \phi_{2, k} = Pr(D_{2, k} = 1|I_{2, k} = 1) = f(\mathbf{x}_{2}, \boldsymbol\beta) \]

Una vez que se ha modelado la ausencia de respuesta, los pesos longitudinales son ajustados utilizando el inverso de la probabilidad de respuesta sobre los respondientes efectivos en el primer periodo de interés:

\[ d_{2, k}^{longitudinal} = \frac{d_{2, k}^{inicial}}{\hat{\phi}_{2, k} } \]

17.2.2.3 Calibración de los pesos longitudinales

Luego del ajuste por ausencia de respuesta es aconsejable imponer algunas restricciones sobre los factores de expansión; en particular, se busca que la suma de los pesos reproduzca con exactitud los conteos poblacionales, o las proyecciones demográficas, en el país, en las regiones o departamentos, en los subgrupos de edad y sexo, en las áreas urbana y rural, etc. En general, en las restricciones de la calibración pueden intervenir tanto variables a nivel de individuo como de hogar. Es importante enfatizar que los totales auxiliares usados en la calibración deben representar la población del primer periodo de interés, puesto que, al conformar un panel que no adiciona elementos a lo largo de los periodos de medición, la muestra será representativa únicamente del periodo en cual fue seleccionada. Teniendo en cuenta que las variables de calibración están representadas por el vector \(\mathbf{z}_k\) y que sus totales poblacionales están disponibles en forma de proyecciones poblacionales, entonces este conjunto de restricciones sobre los nuevos pesos longitudinales calibrados \(w_{2, k}^{calibrado}\) se puede escribir como:

\[ \sum_{s_r^{(2)}} w_{2, k}^{calibrado} \ \mathbf{z}_k = \sum_{U} \mathbf{z}_k \]

Por lo tanto, los pesos finales que deberían incluirse en la base de datos longitudinal de los dos trimestres combinados, estarían dados por \(w_{2, k}^{calibrado}\), los cuales pueden escribirse como sigue:

\[ w_{2, k}^{calibrado} = g_k * d_{2, k}^{longitudinal} \]

En donde los ponderadores \(g_k\) dependen de la muestra traslapada y representan la cercanía de los pesos finales longitudinales calibrados con los pesos longitudinales sin calibrar. Se esperaría que estos valores estuvieran cercanos, en general, a la unidad.

Referencias

Feinberg, Stephen, y Elizabeth Stasny. 1983. «Estimating monthly gross flows in labour force participation». Survey Methodology 9 (1): 77-102.

LaRoche, Silvia. 2003. Longitudinal and Cross-Sectional Weighting of the Survey of Labour and Income Dynamics. Statistics Canada.

Naud, Jean-Francois. 2002. Combined-panel longitudinal weighting - Survey of Labour and Income Dynamics. Statistics Canada.

Verma, Vijay, Gianni Betti, y Giulio Ghellini. 2006. «Cross-sectional and longitudinal weighting in a rotational household panel: applications to EU-SILC», 36.