Capítulo 10 Construcción de los factores de expansión

En todas las bases de datos de las encuestas de hogares se encuentra una columna que contiene los pesos de muestreo o factores de expansión. Con esta columna se realizan todos los análisis requeridos en la encuesta, desde estimar medias, razones, tamaños y proporciones hasta el ajuste de modelos lineales y no lineales. La razón principal por la cual se usan los factores de expansión es para producir estimaciones que reflejen de manera precisa el comportamiento de la población objetivo. El uso correcto de los factores de expansión garantiza que la estimación sea insesgada y consistente, que el error de muestreo sea pequeño, condicionado al diseño muestral y al tamaño de la muestra; además de corregir las deficiencias de cobertura del marco de muestreo.

La naturaleza de los factores de expansión es intuitiva y se da en el marco del principio de representatividad que gobierna la inferencia de las encuestas de hogares y cualquier otra operación estadística basada en la selección de una muestra. De esta forma, el factor de expansión de una unidad muestral representa el número de veces que se representa a sí misma y a otras unidades similares a ella misma. En general, bajo condiciones de regularidad, el factor de expansión será siempre positivo y mayor que la unidad. Además, la suma de los factores de expansión sobre la base de datos deberá ser aproximarse al tamaño de la población sobre la cual se desea realizar la inferencia.

Por ejemplo, un hogar en una encuesta con un factor de expansión de 500 se representa a sí mismo y a otros 499 hogares más. La definición teórica del factor de expansión, inducida por el inverso multiplicativo de la probabilidad de inclusión de un hogar en la muestra, hace que la inferencia sea insesgada y confiable. Sin embargo, debido a que la probabilidad de inclusión es un número real contenido en el intervalo \((0, 1]\), entonces su inverso multiplicativo también será un número real mayor o igual que uno. Asimismo, si en el país hay alrededor de cuatro millones de hogares, se espera que la suma de los factores de expansión sobre la muestra de hogares esté alrededor de esta cifra.

Los procesos de inferencia estadística establecidos en cualquier encuesta de hogares descansan sobre el principio de representatividad que afirma que es posible seleccionar una muestra y representar con bastante precisión y exactitud la realidad de la población de interés. A su vez, las propiedades estadísticas de la inferencia en encuestas de hogares descansan sobre las probabilidades de inclusión generadas por el diseño de muestreo que se implementó en la encuesta. En general el peso de muestreo \(d_k\) asociado a un individuo \(k\) en la muestra \(s\) es función de la probabilidad de inclusión del individuo, así:

\[ d_k = \frac{1}{Pr(k\in s)} \]

Como se mencionó anteriormente, para conservar la estabilidad en los pesos de muestreo, es posible definir diseños de muestreo auto-ponderados, en donde las unidades finales de muestreo tengan las misma probabilidad de inclusión, sin importar el tamaño de la unidad primaria de muestreo que la contiene. Este tipo de diseños es útil porque induce mayor control sobre las estimaciones finales. Además, Valliant y Dever (2017) afirman que los pesos de muestreo se utilizan con el fin de incorporar las probabilidades de selección de las unidades en la muestra, ajustar en casos en los que no se pueda determinar si algunas unidades en la muestra son miembros de la población de interés, minimizar el sesgo causado por la ausencia de respuesta cuando algunas unidades no responden habiendo sido incluidas en la muestra, incorporar información auxiliar externa para reducir los errores muestrales de las estimaciones y compensar cuando la muestra no cubre correctamente a la población de interés.

Es de notar que la conformación de los pesos de muestreo se transforma en un reto metodológico para el investigador, puesto que debe ajustarse a la realidad de la región en donde las poblaciones de los municipios se expanden cada vez más en el sector urbano y los marcos de muestreo de las áreas geográficas se desactualizan con rapidez. Varias soluciones a este problema han sido planteadas (J. G. Gambino y Silva 2009) y todas ellas requieren de esfuerzos económicos, logísticos y técnicos. Por ende, los equipos de los INE (a todo nivel) deben ser flexibles y adecuarse a esta realidad cambiante de la movilidad de las poblaciones, sobre todo en las áreas urbanas.

En condiciones ideales el marco de muestreo debería coincidir plenamente con la población finita. Sin embargo, en general, no es posible contar con una lista de todos los elementos de la población y, en el contexto de las encuestas a hogares, no existe una lista que enumere todos los hogares de un país de manera actualizada, por lo que la práctica estándar es construir el marco de muestreo en varias etapas, seleccionando una muestra de áreas geográficas, realizando un empadronamiento exhaustivo de todos los hogares en las áreas seleccionadas y luego seleccionando hogares. Este esquema de muestreo hace que el marco de muestreo de las encuestas a hogares presente imperfecciones.

Para hacerle frente a las imperfeccciones del marco, Valliant y Dever (2017) recomienda el uso de los códigos de disposición estandarizados por la American Association for Public Opinion Research (AAPOR) recomienda tratar la ausencia de respuesta de manera diferenciada y clasificar a cada unidad en la muestra en algunas de las siguientes categorías:

  1. ER (elegible respondents), unidades elegibles que fueron respondientes efectivos que denotan casos elegibles para los cuales se ha recolectado una cantidad suficiente de información.
  2. ENR (elegible nonrespondents), unidades eligibles no respondientes que denotan los casos elegibles para los cuales no se recolectó ningún dato o la información fue parcialmente recolectada.
  3. IN (ineligibles), unidades no elegibles que conforman los casos de miembros no elegibles que no hacen parte de la población de interés.
  4. UNK (unknown elegibility), unidades con elegibilidad desconocida que denotan los casos en donde no se puede conocer si la unidad es elegible o no.

Para construir los factores de expansión de una encuesta se recomienda seguir en este orden los siguientes procesos:

  1. Creación de los pesos básicos.
  2. Ajuste por elegibilidad desconocida.
  3. Descarte de las unidades no elegibles.
  4. Ajuste por ausencia de respuesta.
  5. Calibración por proyecciones poblacionales y variables auxiliares.
  6. Recorte y redondeo de los factores finales (opcional).

Referencias

Gambino, J. G., y PL. d N. Silva. 2009. «Chapter 16 - Sampling and Estimation in Household Surveys». En Handbook of Statistics, 29:407-39. Handbook of Statistics. Elsevier. https://doi.org/10.1016/S0169-7161(08)00016-3.
Valliant, Richard, y Jill A. Dever. 2017. Survey Weights: A Step-by-step Guide to Calculation. 1 edition. Stata Press.