17.3 Generación de bases longitudinales anuales

En esta sección se describen los pasos necesarios para combinar bases de datos longitudinales que permitan hacer seguimiento a la situación de los hogares a lo largo de todo un año. La metodología que se recomienda implementar es una generalización de los pasos descritos en Verma, Betti, y Ghellini (2006), que define un procedimiento secuencial para la creación de los factores de expansión en el panel. El raciocinio de este procedimiento sigue exactamente los mismos pasos que los mencionados anteriormente en la creación de bases longitudinales para dos periodos consecutivos. Es decir, primero es necesario crear el conjunto de pesos iniciales (transversales en el primer periodo) para luego definir los pesos finales (longitudinales en los cuatro trimestres de todo un año).

El primer paso en la generación de los pesos longitudinales consiste en realizar una consolidación de bases de datos, en donde se combinen únicamente los periodos de interés. Siguiendo con el ejemplo del esquema 4(0)1, correspondería a los cuatro trimestres del año. Para esto, es necesario filtrar cada una de las bases transversales con el identificador del panel de interés. De esta forma se tendrán cuatro bases de datos conteniendo únicamente la información de estos paneles comunes.

La determinación de los pesos iniciales viene supeditada a los pesos básicos ajustados por cobertura \(d_{(1,k)}\) del procesamiento transversal del primer trimestre que se quiere combinar. En general, los pesos básicos se crean a partir del inverso de la probabilidad de inclusión de los paneles; puesto que, al realizar la combinación de los cuatro trimestres en un esquema 4(0)1, es evidente que hay un solo panel coincidente y como la muestra transversal contiene cuatro paneles, entonces \(Pr(\text{selección de paneles}) = 1/4\). En resumen,

\[ d_{(1,k)}^{básico}= \dfrac{d_{(1,k)}}{Pr(\text{selección de paneles})} = 4 \times d_{(1,k)} \]

Como se anotó anteriormente, se debe seguir un proceso riguroso de identificación secuencial de respondientes y no respondientes para poder realizar la combinación de las correspondientes bases de datos transversales. Este procedimiento debe tener en cuenta únicamente a las unidades muestrales que respondieron sistemáticamente en cada uno de los periodos de interés. Por lo tanto se sugiere que se sigan los siguientes pasos:

  1. Trimestre T1 y T2.
    • Identificación de los respondientes en T1 y T2.
    • Identificación de quienes respondieron en T1 pero no en T2.
  2. Trimestre T1, T2 y T3.
    • Identificación de los respondientes en T1, T2 y T3.
    • Identificación de quienes respondieron en T1 y en T2, pero no en T3.
  3. Trimestre T1, T2, T3 y T4.
    • Identificación de los respondientes en T1, T2, T3 y T4.
    • Identificación de quienes respondieron en T1, T2 y en T3, pero no en T4.

En esta instancia se construye la base longitudinal que será usada para realizar los análisis de interés. En primer lugar, se define la muestra longitudinal \(s^{(1234)}\) como aquella constituida por las unidades seleccionadas en ambos periodos de interés para los paneles coincidentes: \[ s^{(1234)}=s^1 \cap s^2 \cap s^3 \cap s^4 \]

La muestra \(s^{(1234)}\) es representativa de la población longitudinal en los periodos combinados. En esta etapa, el factor de expansión longitudinal inicial se define como idéntico al peso resultante de la sección anterior; es decir

\[ d_{(1234,k)}^{inicial}=d_{(1,k)}^{inicial} \]

Es necesario identificar las unidades que no respondieron en alguna ocasión para asignarles un peso longitudinal nulo; es decir \(d_{(1234,k)}^{inicial}=0\) para aquellas unidades \(k \notin s_r^{(1234)}\); en donde el conjunto \(s_r^{(1234)}\) representa a las unidades que respondieron la encuesta en todos los cuatro trimestres de la combinación. Sin embargo, estas unidades que no respondieron en alguna ocasión se utilizarán para ajustar el modelo de propensity score, antes de que sean excluidas totalmente de la base de datos (puesto que su peso de muestreo es nulo).

Con base en la identificación de respondientes y no respondientes a lo largo del año, el siguiente paso necesario es realizar el ajuste por ausencia de respuesta, que debería estar supeditado a las covariables disponibles en el marco de muestreo, o en rondas anteriores de la misma encuesta. Como se ha indicado a lo largo de este documento, se recomienda usar un enfoque basado en la estimación de las propensiones de respuesta de cada individuo para ajustar los pesos básicos. La probabilidad de respuesta estará supeditada al siguiente modelo:

\[ \phi_{(1234,k)}=Pr(D_{(1234,k)}=1|I_{(1234,k)}=1)=f(x,\beta) \]

En la notación anterior, el conjunto de respondientes efectivos se define como aquel al que pertenecen las unidades muestrales que han respondido en todos los periodos de interés. Los pesos básicos son ajustados utilizando el inverso de la probabilidad estimada de respuesta sobre los respondientes efectivos en el primer periodo de interés, así se conforma el primer conjunto de pesos iniciales de las bases de datos longitudinales. Por último, se debe corroborar que la suma de los pesos ajustados por la ausencia de respuesta esté cercana al tamaño de la población que se quiere representar.

Luego del ajuste por ausencia de respuesta, el proceso termina con la calibración final; en donde se imponen algunas restricciones sobre los factores de expansión finales; en particular, se busca que la suma de los pesos reproduzca con exactitud los conteos poblacionales, o las proyecciones demográficas.

Una observación pertinente que debe realizarse es que la base de datos longitudinal representa con exactitud al conjunto de individuos comunes en los periodos de interés; por consiguiente, las estimaciones transversales que se hagan a partir de esta base (por ejemplo, pobreza en un determinado trimestre, entre otras) solo deben tomarse de manera referencial, puesto que no reemplazarán a las estimaciones transversales ya publicadas. Nótese que la población de interés de la encuesta transversal no es la misma que la de la combinación (panel) y por ende, estas estimaciones no coincidirán y no debieran coincidir.

La razón de la creación de las bases de datos longitudinales reside grandemente en la estimación de los flujos brutos, su error de muestreo asociado y sus correspondientes intervalos de confianza. La ganancia en el análisis es muy grande cuando se conocen las estimaciones entre estados de una variable de interés. Por ejemplo, los usuarios de la encuesta pueden estar interesados en analizar el cambio bruto (flujos) entre diferentes estados de la fuerza de trabajo; es decir, aquellos que estaban ocupados en un trimestre T1 cómo se encuentran en el siguiente trimestre T2. Este tipo de análisis se traduce comúnmente en la estimación de matrices de transición, que serán tratadas en el siguiente capítulo.

Referencias

Verma, Vijay, Gianni Betti, y Giulio Ghellini. 2006. «Cross-sectional and longitudinal weighting in a rotational household panel: applications to EU-SILC», 36.