10.4 Ajuste por ausencia de respuesta

En este paso los pesos de los respondientes efectivos (ER) se ajustan para tener en cuenta a los que no respondieron (ENR). Al final del proceso, los pesos de los ER se incrementan para compensar el hecho de que algunas unidades elegibles no proveyeron información. Para el manejo efectivo de la ausencia de respuesta se consideran las siguientes variables aleatorias:

\[ I_k= \begin{cases} 1, &\text{si $k \in (s_{ER} \cup s_{ENR})$}\\ 0, &\text{en otro caso.} \end{cases} \]

\[ D_k= \begin{cases} 1, &\text{si $k \in s_{ER}$}\\ 0, &\text{si $k \in s_{ENR}$.} \end{cases} \]

Al suponer que la distribución de las respuestas puede ser estimada, entonces la probabilidad de respuesta (propensity score) está dada por

\[ Pr[ k\in s_{ER}|k\in (s_{ER} \cup s_{ENR})]=Pr[D_k = 1|I_k = 1]=\phi_k \]

Si el patrón de ausencia de respuesta es completamente aleatorio (en donde la no respuesta no sigue ningún patrón específico) o aleatorio (en donde el patrón de la no respuesta puede ser explicado por un conjunto de covariables \(\mathbf{z}\)), entonces

\[ \phi_k = f(\mathbf{z}_k, \boldsymbol{\beta}) \ \ \ \ \ \ \ \ \forall \ k \in (s_{ER} \cup s_{ENR}) \]

De esta forma, si fuese plausible tener acceso a las covariables \(\mathbf{z}\) para los individuos elegibles en la muestra, entonces se podría estimar el patrón de ausencia de respuesta mediante la siguiente relación funcional:

\[ \hat{\phi}_k = f(\mathbf{z}_k, \hat{\boldsymbol{\beta}}) \ \ \ \ \ \ \ \ \forall \ k \in (s_{ER} \cup s_{ENR}) \]

Por otro lado, si el patrón de ausencia de respuesta es no aleatorio (en donde la misma estructura de la ausencia de respuesta es explicada por la variable de interés; por ejemplo cuando en una encuesta de mercado laboral son los desempleados quienes no responden), entonces

\[ \phi_k = f(\mathbf{y}_k, \beta) \ \ \ \ \ \ \ \ \forall \ k \in (s_{ER} \cup s_{ENR}) \]

En este caso, como no es posible tener acceso a la variables de interés para todos los individuos en la muestra de unidades elegibles (precisamente porque no todos respondieron), entonces no es posible estimar el patrón de ausencia de respuesta y por ende habrán problemas de sesgo. Por otra parte, Kim y Riddles (2012) muestran que es posible utilizar un modelo basado de estimación de las probabilidades de respuesta (propensity score). De esta forma, teniendo en cuenta que la probabilidad de que un individuo conteste es \(\phi_k = Pr(k \in s_{ER})\), al suponer que existe acceso al vector de información auxiliar \(\mathbf{z}_k\) conocido para todo \(k\in (s_{ER} \cup s_{ENR})\) es posible estimarla, por ejemplo, por medio de un modelo de regresión logística; esto es,

\[ \hat{\phi}_k = \frac{\exp\{\mathbf{z}_k'\hat{\boldsymbol{\beta}}\}}{1 + \exp\{\mathbf{z}_k'\hat{\boldsymbol{\beta}}\}} \ \ \ \ \ \ \ \ \forall \ k \in (s_{ER} \cup s_{ENR}) \]

donde \(\hat{\mathbf{\beta}}\) es el vector de coeficientes estimado de la regresión logística. Por tanto, si la ausencia de respuesta no depende de la variable de interés, es posible definir el siguiente estimador insesgado

\[ \hat{t}_y=\sum_{k\in s_{ER}}d_{4k}y_k \]

En donde

\[ d_{4k} = \frac{d_{3k}}{\hat{\phi_k}} \ \ \ \ \ \ \ \ \forall \ k \in s_{ER} \]

Es posible aumentar la eficiencia del estimador si se crean categorías homogéneas de individuos que tengan la misma probabilidad de responder. En este caso, los valores de las covariables pueden ser usados para crear estas categorías. Por consiguiente, siempre es necesario obtener un conjunto de covariables que esté disponible para respondientes y no respondientes a la vez.

Por ejemplo, considere un escenario simplificado en donde es posible identificar que la probabilidad de responder está relacionada únicamente con las variables edad (5 categorías) y sexo (2 categorías). En este caso, sería posible formar \(Q=10\) \((q = 1, \ldots, Q)\) categorías de acuerdo al cruce de estas variables para obtener una estimación de la probabilidad de respuesta en cada clasificación y ajustar el peso de muestreo. De esta manera, siendo \(s_{q}\) la muestra seleccionada en la categoría \(q\), la probabilidad de respuesta en esta categoría se estimaría como:

\[ \phi_{q} = \frac{\sum_{s_{ER}\cap s_q}d_{3k}}{\sum_{s_{q}}d_{3k}} \]

El nuevo peso ajustado por la ausencia de respuesta estará dado por:

\[ d_{4k} = \frac{d_{3k}}{\phi_{q}} = d_{3k}\frac{\sum_{s_q}d_{3k}}{\sum_{s_{ER}\cap s_q}d_{3k}} \]

En un escenario más complejo, si las probabilidades de respuesta fueron estimadas con un modelo de propensity score y, teniendo en cuenta que las predicciones de estas probabilidades varían entre cero y uno, es posible crear clases de individuos (respondientes y no respondientes) con probabilidades similares. En este caso, se asumiría que las unidades dentro de una misma clase tendrán la misma configuración de covariables, o al menos, una probabilidad de respuesta estimada similar \(\hat\phi_k\). Así, dentro de cada clase, las unidades serían tratadas como si hubiesen sido aleatorizadas al tratamiento (responder) o al control (no responder).

Por lo tanto, el objetivo de este proceso es asegurar que cualquier diferencia en las covariables pueda ser ajustada. Teniendo en cuenta que, si el modelo es adecuado, la estimación \(\hat\phi_k\) resumiría los efectos de las covariables en la respuesta del individuo, entonces una vez hayan sido creadas las clases es posible realizar el ajuste mediante alguna medida de localización en cada clase y, de esta forma, todos los individuos de una misma clase se ajustarían de la misma manera. Asumiendo que se pueden crear \(C\) clases y que \(s_c\) es la muestra de \(n_c\) unidades elegibles en la clase \(c\) \((c=1, 2, \ldots, C)\), entonces es posible utilizar alguna de las siguiente medidas (Valliant y Dever 2017):

  1. Promedio no ponderado: \[\hat{\phi}_c = \frac{\sum_{k \in s_c}\hat{\phi}_k}{n_c}\]

  2. Promedio ponderado: \[\hat{\phi}_c = \frac{\sum_{k \in s_c}d_{3k}\hat{\phi}_k}{n_c}\]

  3. Mediana no ponderada: \[\hat{\phi}_c = mediana[\hat{\phi}_k] \ \ \ \ \ \ \ \ \forall \ k \in s_c\]

  4. Tasa de repuesta no ponderada: \[\hat{\phi}_c = \frac{\#(s_{ER}\cap s_c)}{n_c}\]

  5. Tasa estimada de repuesta: \[\hat{\phi}_c = \frac{\sum_{s_c \cap s_{ER}}d_{3k}}{\sum_{s_c}d_{3k}}\]

Nótese que, si todas las unidades dentro de una clase tienen la misma probabilidad de responder, entonces la tasa de repuesta no ponderada es la mejor opción. Además, si dentro de las clases las unidades tienen una probabilidad de responder muy disímil, entonces el promedio no ponderado (o ponderado) del PS puede usarse. De la misma manera, la tasa estimada de repuesta puede ser ineficiente si los pesos de muestreo varían demasiado, pero la probabilidad de respuesta es similar en cada clase. Por último, la mediana se considera si la distribución de la probabilidad de respuesta es sesgada.

Referencias

Kim, Jae Kwang, y Minsun Kim Riddles. 2012. «Some theory for propensity-score-adjustment estimators in survey sampling». Survey Methodology 38 (2): 157-65.
Valliant, Richard, y Jill A. Dever. 2017. Survey Weights: A Step-by-step Guide to Calculation. 1 edition. Stata Press.