14.1 Modelos para la imputación

El término imputación se refiere al conjunto de técnicas por las cuales los valores faltantes en una o más variables se reemplazan con información plausible con el objetivo de lograr valores sustitutivos en una base de datos que pueda ser analizada posteriormente. Este proceso introduce un nuevo elemento de error, conocido como el error de imputación, debido a la incertidumbre que introducen los valores no observados. Cuando se tiene ausencia de respuesta por registro, las técnicas de imputación se prefieren antes que la utilización de los esquemas de ponderación en la muestra. De esta manera, es posible crear un conjunto completo y rectangular de datos mediante la imputación de los valores faltantes, puesto que después de realizar la imputación, se espera que todos los valores del cuestionario de un individuo contengan información y no exista ningún vacío.

Para lograr la sustitución de los valores faltantes con información plausible, es posible encontrar donantes apropiados, en la misma muestra que se ha conseguido, definidos como respondientes que comparten características demográficas similares con el individuo que no respondió. Por lo tanto, la información del respondiente donante (o una función de estos valores) se copiará en las celdas vacías del no respondiente. Para encontrar los donantes es posible realizar un análisis estadístico con base en métodos de clasificación. Dentro de los métodos de imputación más usados en encuestas de hogares se encuentran los siguientes:

  • Imputación promedio (mean value imputation) que utiliza la media de la variable (dentro de las UPM o en un subconjunto apropiado de datos). En este caso, si se encuentra un valor faltante, inmediatamente será reemplazado por el promedio de los datos de los respondientes en un subgrupo apropiado.
  • Imputación por paquete caliente (hot deck imputation) que reemplaza los valores faltantes por los valores de un donante que es un respondiente de la encuesta en el mismo levantamiento. En este caso, el valor faltante es reemplazado por la información del individuo escogido de antemano.
  • Imputación por paquete frío (cold deck imputation) que reemplaza los valores faltantes por los valores de un donante que es un respondiente de la misma encuesta, pero en un levantamiento anterior. En este caso, el valor faltante es reemplazado por la información auxiliar de un individuo escogido de encuestas anteriores.
  • Imputación estadística basada en modelos estadísticos en donde la variable dependiente es aquella que se quiere imputar y las covariables se derivan del restante conjunto de datos. En este caso, el valor faltante es reemplazado por la predicción (o una función) del modelo ajustado con la información en la muestra.

Como se mencionó anteriormente, cuando se trata de imputación, se pueden definir dos tipos de métodos. La imputación de la unidad completa, que se produce cuando toda la información de un individuo es imputada, y la imputación de registros, que se da cuando los valores faltantes son imputados a nivel de los individuos. Observe que la imputación de la unidad se utiliza para hacerle frente a la ausencia de respuesta de la unidad, cuando no hay datos para el individuo, mientras que la imputación del registro se utiliza para la no respuesta del registro, cuando no todos los valores se proporcionan para un individuo, pero algunos sí.

La imputación se realiza a menudo en grupos no traslapados \(g= 1, \ldots, G\), donde la unión de \(s_1, \ldots, s_G\) equivale a la muestra completa \(s\). Se pueden utilizar diferentes métodos para cada grupo, pero dentro de cada grupo se debe utilizar el mismo método de imputación. Esto se debe a que pueden existir diferentes covariables disponibles para cada grupo. Cuando la disponibilidad de las variables auxiliares (covariables) es limitada, es posible considerar una jerarquía de métodos de imputación. De esta forma, para los grupos con más información disponible, es posible utilizar métodos más sofisticados de imputación; mientras que para grupos con menos información auxiliar disponible, se deben usar métodos de imputación más simples. C.-E. Särndal y Lundström (2006) presentan una discusión acerca del uso de esta técnica en combinación con los estimadores utilizados en las encuestas de hogares que proveen estadísticas oficiales. A continuación, se presenta una compilación no exhaustiva de algunos de los principales métodos de imputación que se utilizan en las encuestas de hogares.

14.1.1 Imputación por regresión

En este método determinístico, el valor imputado para el valor faltante \(y_k\) se calcula utilizando una regresión lineal.

\[ \hat{y}_k = \mathbf{x}_k \hat{\boldsymbol{\beta}}_i \]

Donde,

\[ \hat{\boldsymbol{\beta}}_i = \left(\sum_{r_i} a_k\mathbf{x}_k\mathbf{x}_k'\right)^{-1} \sum_{r_i} a_k\mathbf{x}_ky_k \]

El vector de coeficientes de regresión \(\hat{\boldsymbol{\beta}}_i\) se produce a partir de un ajuste de regresión múltiple utilizando los datos \((y_k, \mathbf{x}_k)\) disponibles para cada unidad \(k \in r_i\) con pesos \(a_k\) especificados adecuadamente. Nótese que, en general, las predicciones del modelo de regresión no necesariamente serán valores observados en algún otro individuo de la muestra. Por lo tanto, este método inducirá valores imputados que no han sido observados en la encuesta. Además, se deberán generar tantos modelos de regresión como variables con valores faltantes existan.

14.1.2 Imputación de razón

Un caso especial del anterior método se da cuando solo se tiene acceso a una sola covariable (positiva) \(\mathbf{x}_k = x_k\), y definiendo \(a_k = \frac{1}{x_k}\). En este caso, la estimación del coeficiente de regresión será

\[ \hat{{\beta}}_i = \frac{\sum_{r_i}y_k}{\sum_{r_i}x_k} = R_i \]

Y por tanto, la imputación para el valor faltante se convierte en

\[ \hat{y}_k = x_k \hat{\beta}_i = x_k \frac{\sum_{r_i}y_k}{\sum_{r_i}x_k} = x_k R_i \]

Este método se utiliza a menudo cuando la misma variable se mide en dos momentos diferentes en la misma encuesta. Por ejemplo, si \(y\) indica la variable de estudio en el momento actual, \(x\) indica la variable en el punto de tiempo anterior, entonces el coeficiente utilizado para la imputación es la relación entre los dos puntos en el tiempo.

14.1.3 Imputación de promedio

El caso más sencillo de la imputación por regresión se da cuando \(a_k = x_k = 1\) para todo \(k \in r_i\). En este escenario, el valor imputado se convierte en

\[ \hat{y}_k = \frac{\sum_{r_i}y_k}{\sum_{r_i}1}= \bar{y}_{r_i} \]

Por lo tanto, todos los valores faltantes recibirán el mismo valor imputado, que es justamente el promedio de la variable en el conjunto de respondientes. Nótese que no se requiere de ninguna información adicional en este método.

14.1.4 El vecino más cercano

Si asumimos que valores similares de \(x\) producirán valores similares de \(y\), podemos “pedir prestado” un valor de \(y\) para imputar el valor faltante de un “vecino” con valores similares en \(x\). En este caso, el valor imputado para la unidad \(k\) está dado por

\[ \hat{y}_k = y_{l(k)} \]

Dónde \(l(k)\) es el “elemento donante”, determinado al minimizar una ecuación de distancia. En el caso más simple, para una sola covariable de imputación \(x_k\), la distancia entre los posibles donantes \(l\) a la unidad \(k\) es:

\[ D_{lk} = |x_k - x_l| \]

El donante \(l\) del elemento \(k\) es aquel individuo con la menor distancia \(D_{lk}\) entre todos los posibles elementos \(l\in r_i\). Para el caso en donde se contemple más de una covariable de imputación, es posible considerar la siguiente distancia

\[ D_{lk} = \left( \sum_{j=1}^J h_j (x_{jk} - x_{jl})^2 \right) \]

En donde \(h_j\) se utiliza para ponderar adecuadamente cada una de las \(J\) covariables de la matriz de imputación.

14.1.5 Imputación por paquete caliente (Hot-Deck)

La imputación por regresión y el vecino más cercano son métodos que asumen una fuerte relación entre la variable de interés \(y\) y las covariables \(\mathbf{x}\). Sin embargo, en algunas aplicaciones esta relación no se puede establecer fácilmente, y no es plausible validar los supuestos de modelación que otros métodos requieren. Por lo tanto, en este tipo de técnica, el valor imputado para el individuo \(k\) está dado por:

\[ \hat{y}_k = y_{l(k)} \]

Donde el valor imputado \(y_{l(k)}\) es proporcionado por un donante seleccionado aleatoriamente del conjunto de datos de la variable de interés. Este método no se recomienda cuando existen mejores opciones, ya que no se cuenta con información auxiliar para determinar un buen sustituto.

14.1.6 Imputación múltiple

Cuando existe información auxiliar que permita relacionar las covariables con la variable de interés, es posible establecer mejores modelos que no solo mantienen el insesgamiento de la inferencia, sino que estiman con bastante precisión el error de muestreo. Con respecto a esta última categoría de imputación, es posible completar el conjunto de datos utilizando información auxiliar de los respondientes en la encuesta (o encuestas anteriores, si se trata de un diseño rotativo) y la información disponible a nivel de la población para predecir los valores faltantes usando un modelo de regresión. Una de las técnicas más robustas es la imputación múltiple que consiste en formular un modelo probabilístico entre la variable de interés y las covariables disponibles en la encuesta (Rubin 1987). Suponga que este modelo es de la forma

\[ y_k = f(\mathbf{x_k},\boldsymbol{\beta}) + \varepsilon_k, \ \ \ \ \ \ k\in r_i \]

En donde \(\varepsilon_k\) es un término de error aleatorio. Una vez formulado el modelo, y debido a la naturaleza estocástica de \(\varepsilon_k\), es posible generar \(M>1\) realizaciones de la variable de interés para los registros faltantes; esto se logra de manera muy sencilla, simulando \(M\) valores del término de error. De esta forma, se generan \(M\) conjuntos de datos completos. Para cada conjunto de datos, se generarán \(M\) estimaciones de interés que luego se promedian para obtener una estimación puntual.

Referencias

Rubin, Donald B. 1987. Multiple Imputation for nonresponse in surveys. Wiley series en probability y mathematical statistics Applied probability y statistics. Wiley.
Särndal, Carl-Erik, y Sixten Lundström. 2006. Estimation in surveys with nonresponse. Repr. Wiley series en survey methodology. Wiley.