13.1 Sesgo sobre los estimadores

Asumiendo que existe ausencia de respuesta en la muestra, considere la siguiente forma de estimar (ingenuamente) el promedio poblacional \(\bar{y}_U\) mediante el estimador de Hájek

\[ \tilde{y}_s = \frac{\sum_{s_r}d_ky_k}{\sum_{s_r}d_k} = \frac{\hat{t}_y}{\hat{N}} \]

Siendo \(\bar{\phi}\) el promedio de las probabilidades de respuesta, el sesgo generado por la ausencia de respuesta puede cuantificarse de la siguiente manera:

\[ B\left(\tilde{y}_s\right) = \frac{1}{N\bar{\phi}}\sum_U(y_k-\bar{y}_U)(\phi_k-\bar{\phi}) = \frac{Cov\left(\bar{y},\phi\right)}{\bar{\phi}} = \frac{Cor\left(Y,\phi\right)S\left(Y\right)S\left(\phi\right)}{\bar{\phi}} \]

En donde \(Cov\left(Y,\phi\right)\) es la covarianza poblacional entre los valores de la característica de interés y las probabilidades de respuesta, \(cor\left(Y,\phi\right)\) es el coeficiente de correlación poblacional y \(S\left(Y\right)\) es la desviación estandar poblacional de la variable objetivo. Dado que el valor del coeficiente de correlación está restringido al intervalo \([-1, 1]\), el valor máximo del sesgo absoluto será igual a

\[ |B\left(\tilde{y}_s\right)| \leq \frac{S\left(\phi\right)S\left(y\right)}{\bar{\phi}} = \frac{\left(1-R\left(\phi\right)\right)S\left(y\right)}{2\bar{\phi}} \]

A pesar de que este límite superior no se puede calcular en situaciones prácticas, sí es posible estimarlo utilizando los datos de la muestra y las probabilidades de respuesta estimadas. Nótese que si el mecanismo de ausencia de respuesta fuese MCAR, entonces el valor de \(R\left(\phi\right)\) sería uno, y por consiguiente no habría sesgo. De la misma forma, en el caso extremo en el que la característica de interés fuese homogénea en toda la población, tampoco habría sesgo en el estimador, y bastaría con utilizar los datos de la muestra de respondientes efectivos, sin ningún tipo de corrección.

Además de las anteriores consideraciones, es posible evaluar las propuestas de escogencia de variables para calibración de Graham Kalton y Flores-Cervantes (2003) y de Sarndal (2011). En particular, este último autor considera un indicador del sesgo por ausencia de respuesta sobre los estimadores de calibración, cuya lógica se basa en que, en el mejor de los casos, en el que no hubiese errores de cobertura ni ausencia de respuesta, el estimador de expansión \(\hat{t}_{y}\) sería insesgado y la distancia que habría entre este y el estimador de calibración \(\hat{t}_{y,cal}\) se podría cuantificar como \(\Delta_A = \frac{(\hat{t}_{y,cal} - \hat{t}_{y})}{N}\). Este indicador se sugiere como una posible herramienta para comparar potenciales variables de calibración, de tal forma que cuando el valor de \(|\Delta_A|\) sea grande habría un indicio para preferir un vector de calibración sobre otro. Además, al estandarizarla, esta medida puede ser descompuesta en los siguiente tres factores:

\[\frac{\Delta_A}{S_y} = cv_g \ \times R_{y,\mathbf{x}} \ \times R_{D,C}\]

De esta forma, el primer factor representa el coeficiente de variación de los pesos \(g_k\); el segundo factor al cuadrado es el coeficiente de determinación de una regresión múltiple entre la variable de estudio y las variables del vector de calibración; el último factor al cuadrado es el coeficiente de determinación (proporción de varianza explicada) en una regresión ponderada que pasa por el origen entre las desviaciones de las covariables \(D_j = \hat{t}_{x, j} - t_{x,j}\) y las covarianzas de la variable de estudio y las covariables \(C_j = cov(y, x_j)\).

Referencias

Kalton, Graham, y Ismael Flores-Cervantes. 2003. «Weighting methods». Journal of Official Statistics 19 (2): 17.
Sarndal, Carl-Erik. 2011. «Three Factors to Signal Non‐Response Bias With Applications to Categorical Auxiliary Variables». International Statistical Review / Revue Internationale de Statistique 79 (2).