18.2 Modelos de Markov

Al considerar el problema de la estimación de los cambios brutos entre dos periodos de tiempo, obtenidos de una investigación sobre la población de interés, y teniendo en cuenta que existe ausencia de respuesta no ignorable, es posible suponer que el resultado de cada entrevista corresponde a la clasificación del respondiente en una de \(G\) posibles categorías excluyentes. Por ende, uno de los objetivos de la investigación podría ser la estimación del cambio bruto entre estas categorías utilizando la información de los individuos que fueron entrevistados en dos periodos de tiempo consecutivos. La siguiente tabla ejemplifica la distribución (no observable) de los flujos brutos en una población.

Distribución no observable de los flujos brutos en una población.
Estado (T1/T2) 1 2 \(\cdots\) j \(\cdots\) G
1 \(X_{11}\) \(X_{12}\) \(\cdots\) \(X_{1j}\) \(\cdots\) \(X_{1G}\)
2 \(X_{21}\) \(X_{22}\) \(\cdots\) \(X_{2j}\) \(\cdots\) \(X_{2G}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\ddots\) \(\vdots\) \(\ddots\) \(\vdots\)
i \(X_{i1}\) \(X_{i2}\) \(\cdots\) \(X_{ij}\) \(\cdots\) \(X_{iG}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\ddots\) \(\vdots\) \(\ddots\) \(\vdots\)
G \(X_{G1}\) \(X_{G2}\) \(\cdots\) \(X_{Gj}\) \(\cdots\) \(X_{GG}\)

En donde \(X_{ij}\) es el número de unidades en la población finita clasificadas como \(i\) en el tiempo \(t-1\) y \(j\) en el tiempo \(t\) (\(i,j=1,\ldots, G\)). Siguiendo las consideraciones de Feinberg y Stasny (1983) se asume que los datos son el resultado de un proceso de dos etapas. En la primera etapa (proceso no observable), los individuos son ubicados dentro de las celdas de una matriz \(G\times G\) de acuerdo con las probabilidades de una cadena de Markov, con los siguientes parámetros:

  1. \(\eta_i\), la probabilidad inicial de que un individuo esté en el estado \(i\) en el tiempo \(t-1\).
  2. \(p_{ij}\), la probabilidad de transición desde el estado \(i\) al estado \(j\).

Nótese que en esta primera etapa los parámetros deben cumplir con las siguientes restricciones: \(\sum_i\eta_i=1\) y \(\sum_jp_{ij}=1\) para todo \(i\).

Es claro que, una vez se realice la encuesta y se obtengan los datos de los levantamientos en ambos periodos, los individuos que fueron no respondientes en uno o ambos periodos o fueron incluidos o excluidos de la muestra entre estos dos tiempos no tienen una clasificación definida entre las categorías. De esta forma, se tiene un grupo de individuos con clasificación en ambos tiempos, un grupo de individuos que solo tiene clasificación en uno de los dos tiempos, y un grupo de individuos que no respondieron la encuesta en ningún periodo de tiempo, y por ende nunca fueron clasificados.

Para el primer grupo de individuos que respondieron en los tiempos \(t-1\) y \(t\), los datos de clasificación pueden ser resumidos en una matriz de tamaño \(G\times G\). La información disponible para los individuos que fueron no respondientes para la encuesta del tiempo \(t-1\), pero sí respondieron en el tiempo \(t\), puede ser resumida en un complemento columna; mientras que la información para los individuos que no respondieron en el tiempo \(t\), pero sí respondieron en el tiempo \(t-1\), puede ser resumida en un complemento fila. Finalmente, los individuos que no respondieron en ningún tiempo son incluidos en una única celda de faltantes.

Las anteriores relaciones se ilustran en la siguiente tabla, en donde \(N_{ij}\) (\(i,j=1,\ldots,G\); \(G=4\)) denota el número de individuos respondientes que tienen clasificación \(i\) en el tiempo \(t-1\) y \(j\) en el tiempo \(t\), \(R_i\) denota el número de individuos que fueron no respondientes en el tiempo \(t\) y tienen clasificación \(i\) en el tiempo \(t-1\), \(C_j\) denota el número de individuos que fueron no respondientes en el tiempo \(t-1\) y tuvieron clasificación \(j\) en el tiempo \(t\), y \(M\) denota el número de individuos seleccionados que no respondieron en ningún tiempo. En este estudio particular se consideran cuatro estados de clasificación (ocupados formales, ocupados informales, desocupados, inactivos) - por ende \(G = 4\) - en dos periodos consecutivos de tiempo \(t-1\), primer trimestre del 2020 y \(t\), segundo trimestre del 2020.

Distribución observable de los flujos brutos en la población con ausencia de respuesta en ambos periodos.
Estado (T1/T2) Formal Informal Desocupado Inactivo Complemento fila
Formal \(N_{11}\) \(N_{12}\) \(N_{13}\) \(N_{14}\) \(R_1\)
Informal \(N_{21}\) \(N_{22}\) \(N_{23}\) \(N_{24}\) \(R_2\)
Desocupado \(N_{31}\) \(N_{32}\) \(N_{33}\) \(N_{34}\) \(R_3\)
Inactivo \(N_{41}\) \(N_{42}\) \(N_{43}\) \(N_{44}\) \(R_4\)
Complemento columna \(C_1\) \(C_2\) \(C_3\) \(C_4\) \(M\)

En la segunda etapa (proceso observable), cada individuo en la celda \(ij\) de la matriz puede ser no respondiente en el tiempo \(t-1\) y perder la clasificación por fila, o ser no respondiente en el tiempo \(t\) y perder la clasificación columna, o bien, ser no respondiente en ambos tiempos y perder ambas clasificaciones. Por ende, se genera una estructura probabilística con los siguientes parámetros:

  1. \(\psi(i,j)\), la probabilidad inicial de que un individuo en la celda \(ij\) responda en el tiempo \(t-1\).
  2. \(\rho_{RR}(i,j)\), la probabilidad de transición de que un individuo en la celda \(ij\) pase de ser respondiente en el tiempo \(t-1\) a ser respondiente en el tiempo \(t\).
  3. \(\rho_{MM}(i,j)\), la probabilidad de transición de que un individuo en la celda \(ij\) pase de ser no respondiente en el tiempo \(t-1\) a ser no respondiente en el tiempo \(t\).

Como se puede notar las probabilidades del proceso observables dependen del estado de clasificación del individuo. Para estimar todos los parámetros involucrados, se consideraron los siguientes modelos reducidos, explicados a continuación:

  • Modelo A: considera que la probabilidad inicial de que un individuo sea respondiente en el tiempo \(t-1\) es la misma para todas las clasificaciones contempladas en la encuesta, es decir \(\psi(i,j)=\psi\). Las probabilidades de transición entre respondientes y entre no respondientes no dependen de la clasificación del individuo en la encuesta, es decir \(\rho_{MM}(i,j)=\rho_{MM}\) y \(\rho_{RR}(i,j)=\rho_{RR}\). Es decir que la probabilidad de tránsito entre respondientes es la misma para formales, informales, inactivos y desocupados; asimismo las probabilidades de respuesta se consideran idénticas para las diferentes clasificaciones.
  • Modelo B: considera que la probabilidad inicial de que un individuo sea respondiente en el tiempo \(t-1\) depende de su clasificación en el tiempo \(t-1\), es decir \(\psi(i,j)=\psi(i)\). De la misma manera que en el modelo A, las probabilidades de transición entre respondientes y entre no respondientes no dependerán de la clasificación del individuo en la encuesta, es decir \(\rho_{MM}(i,j)=\rho_{MM}\) y \(\rho_{RR}(i,j)=\rho_{RR}\). Es decir que la probabilidad de respuesta difiere entre formales, informales, inactivos e desocupados; mientras que la probabilidad de tránsito entre respondientes es la misma.
  • Modelo C: asume que la probabilidad inicial de que un individuo sea respondiente en el tiempo \(t-1\) es la misma para todas las clasificaciones contempladas en la encuesta, es decir \(\psi(i,j)=\psi\). Sin embargo, las probabilidades de transición entre respondientes y entre no respondientes dependerán de la clasificación del individuo en el periodo \(t-1\); es decir \(\rho_{MM}(i,j)=\rho_{MM}(i)\) y \(\rho_{RR}(i,j)=\rho_{RR}(i)\). Es decir que la probabilidad de tránsito entre respondientes es la misma para formales, informales, inactivos e desocupados; asimismo las probabilidades de transición difieren para las diferentes clasificaciones en el tiempo inicial.
  • Modelo D: asume que la probabilidad inicial de que un individuo sea respondiente en el tiempo \(t-1\) es la misma para todas las clasificaciones contempladas en la encuesta, es decir \(\psi(i,j)=\psi\). Sin embargo, las probabilidades de transición entre respondientes y entre no respondientes dependerán de la clasificación del individuo en el periodo \(t\); es decir \(\rho_{MM}(i,j)=\rho_{MM}(j)\) y \(\rho_{RR}(i,j)=\rho_{RR}(j)\). Es decir que la probabilidad de respuesta es la misma para formales, informales, inactivos e desocupados; asimismo la probabilidad de tránsito entre respondientes difiere para las diferentes clasificaciones en el tiempo final.

Ampliando las ideas de Feinberg y Stasny (1983), H. A. Gutiérrez (2014) consideró una metodología de estimación basada en el enfoque de máxima-pseudo verosimilitud para estimar lo anteriores parámetros. El objetivo final del proceso es estimar el número de individuos en las celdas de una tabla de contingencia poblacional donde se clasifican según la situación de la fuerza laboral medida en dos puntos de tiempo diferentes bajo un diseño de muestreo complejo. En resumen, el ajuste de los modelos de ausencia de respuesta puede ser realizado siguiendo los algoritmos de estimación propuestos en H. A. Gutiérrez (2014), y utilizando el paquete computacional surf implementado en el software estadístico R (Jacob 2020).

Referencias

Feinberg, Stephen, y Elizabeth Stasny. 1983. «Estimating monthly gross flows in labour force participation». Survey Methodology 9 (1): 77-102.
Gutiérrez, H. A. 2014. «The estimation of gross flows in complex surveys with random nonresponse». Survey Methodology 40 (2): 285-321.
Jacob, Guilherme. 2020. surf: Survey-based Gross-Flow Estimation.