2.5 Motivación

Desde que se popularizaron las encuestas de hogares en 1940, se han hecho evidentes algunas tendencias vinculadas a los avances tecnológicos tanto en las agencias estadísticas como en la sociedad, las cuales se han acelerado con la introducción del computador. Gambino & Silva (2009)

El muestreo surge como respuesta a la necesidad de obtener información estadística precisa sobre una población objetivo, sin recurrir a un censo completo. Como señala Gutiérrez (2016), el muestreo consiste en investigaciones parciales sobre la población que permiten inferir resultados al conjunto total. En las últimas décadas, esta metodología se ha consolidado en distintos campos —especialmente en el sector gubernamental, con la producción de estadísticas oficiales que facilitan el seguimiento de políticas públicas y de los Objetivos de Desarrollo Sostenible—, pero también en el ámbito académico, privado y de comunicaciones.

En el marco de este libro, el foco se centra en el análisis de encuestas de hogares. Para que el lector disponga de ejemplos prácticos, en este capítulo se empleará la base de datos BigCity, que contiene información socioeconómica de 150 266 personas de una ciudad en un año específico. Entre sus variables destacan:

HHID: Identificador del hogar.
PersonID: Identificador de la persona dentro del hogar.
Stratum: Estrato geográfico (119 en total).
PSU: Unidades primarias de muestreo (1664 en total).
Zone: Zona urbana o rural.
Sex: Sexo del entrevistado.
Income: Ingreso mensual per cápita.
Expenditure: Gasto mensual per cápita.
Employment: Situación laboral.
Poverty: Condición de pobreza según ingresos.

2.5.1 La importancia de considerar el diseño muestral

Al analizar datos de encuestas de hogares, ignorar el diseño de muestreo compromete la representatividad, la precisión y la credibilidad de los resultados, lo que puede conducir a decisiones erróneas. Korn y Graubard (1995) muestran cómo las estimaciones ponderadas y no ponderadas pueden diferir sustancialmente, lo que resalta la necesidad de aplicar siempre métodos consistentes con el diseño.

Como se mencionó, las encuestas de hogares se caracterizan por:

Diseños de muestreo complejos (estratificación, conglomeración y probabilidades desiguales de selección), que buscan mejorar la eficiencia y la precisión.
Pesos de muestreo para cada unidad, que permiten representar adecuadamente a la población.

2.5.1.1 Ejemplo ilustrativo

Supóngase un país con dos regiones: la Región A (100 habitantes, ingreso promedio de $10 000) y la Región B (900 habitantes, ingreso promedio de $2 000). El ingreso promedio verdadero es:

\[ \theta = \frac{(100 \times 10,000) + (900 \times 2,000)}{100 + 900} = 2,800 \]

Si se encuestan 50 personas en cada región y se ignora el diseño de muestreo, asignando el mismo peso a todas las observaciones, se obtiene:

\[ \hat{\theta} = \frac{(50 \times 10,000) + (50 \times 2,000)}{100} = 6,000 \]

El sesgo es evidente: se sobreestima el ingreso nacional, pues la Región A (10 % de la población) influye tanto como la Región B (90 %).

En cambio, si se aplican pesos proporcionales al tamaño poblacional (2 para la Región A y 18 para la Región B), la estimación corregida es:

\[ \hat{\theta} = \frac{(2 \times 50 \times 10,000) + (18 \times 50 \times 2,000)}{(2 \times 50) + (18 \times 50)} = 2,800 \]

Lo que reproduce el valor verdadero y elimina el sesgo.

2.5.1.2 Conglomeración y precisión

Otra característica crítica es la conglomeración. La mayoría de encuestas selecciona unidades primarias de muestreo (UPM) como sectores censales o áreas de enumeración, y dentro de ellas, submuestras de hogares. Este diseño reduce costos, pero afecta la precisión: si los hogares dentro de un conglomerado son muy similares, la información adicional que aporta cada uno disminuye.

Por ejemplo, si una encuesta selecciona 100 conglomerados y dentro de cada uno 10 hogares, se obtiene una muestra de 1 000 hogares. Si todos los hogares de un mismo conglomerado comparten la misma característica (p. ej., acceso a electricidad), la muestra ofrece la misma precisión que una muestra aleatoria simple de solo 100 hogares. Analizar ingenuamente los 1 000 hogares como si fueran independientes conduce a subestimar gravemente los errores estándar.

2.5.1.3 Recomendaciones prácticas

Para un análisis adecuado es indispensable que las bases de datos de encuestas incluyan:

Identificadores de estratos y UPM.
Pesos de muestreo a nivel de hogar o persona.

Cuando no se dispone de esta información, se recomienda que al menos se proporcionen pesos replicados, junto con instrucciones claras para calcular estimaciones y errores estándar.