2.7 Estimación de totales

La estimación de totales en encuestas constituye un paso central en el análisis estadístico aplicado a poblaciones finitas. Gran parte de los indicadores de interés para la formulación de políticas públicas, como el número de personas en situación de pobreza, el total de ocupados o el gasto agregado de los hogares, se derivan de un total poblacional. Por esta razón, comprender cómo se definen y estiman los totales resulta fundamental para garantizar la calidad y pertinencia de la información producida.

En términos formales, si \(y_k\) denota el valor de una variable de interés para la unidad \(k \in U\), el total poblacional se define como

\[ Y = \sum_{U} y_k, \]

y su media poblacional como

\[ \bar{Y} = \frac{Y}{N}. \]

Dado que en la práctica solo se observa una muestra \(s \subset U\), es necesario recurrir a estimadores que incorporen el diseño de muestreo. El estimador de Horvitz–Thompson (HT) es el más utilizado bajo el enfoque de diseño y se expresa como

\[ \hat{Y}_{HT} = \sum_{s} d_k y_k, \qquad \bar{y}_{HT} = \frac{\hat{Y}_{HT}}{\hat{N}_{HT}}, \quad \hat{N}_{HT} = \sum_{s} d_k, \]

donde \(d_k = 1/\pi_k\) son los pesos básicos de diseño y \(\pi_k = \Pr(k \in s)\) son las probabilidades de inclusión de primer orden.

En la práctica, los pesos de diseño suelen modificarse para reflejar procesos adicionales como el ajuste por no respuesta o la calibración a totales poblacionales conocidos, obteniendo así los pesos ajustados \(w_k\). El reemplazo de \(d_k\) por \(w_k\) permite mejorar la precisión y reducir sesgos en las estimaciones, especialmente cuando existen fuentes auxiliares de información confiables.

No obstante, toda estimación a partir de una muestra conlleva incertidumbre. Incluso cuando el estimador es insesgado, los resultados variarán de una muestra a otra debido al azar del diseño. Esta variabilidad se cuantifica mediante la varianza de muestreo, el error estándar (\(se\)) o el coeficiente de variación (\(cv\)). Estos indicadores son herramientas indispensables para evaluar la confiabilidad de los totales estimados y, por tanto, para interpretar de manera adecuada la información estadística.

Bajo el enfoque de diseño, la varianza insesgada del estimador de Horvitz–Thompson puede expresarse como:

\[ \hat{V}_p(\hat{Y}_{HT}) = \sum_{k \in s} \sum_{l \in s} \bigl( d_k d_l - d_{kl} \bigr) y_k y_l, \]

donde \(d_{kl} = 1/\pi_{kl}\) y \(\pi_{kl} = \Pr(k,l \in s)\) representan las probabilidades conjuntas de inclusión. Esta expresión requiere que el diseño de muestreo cumpla \(\pi_{kl} > 0\) para todo par de unidades \(k,l \in U\).

En síntesis, la estimación de totales es la piedra angular sobre la cual se construyen indicadores más complejos. Su estudio permite entender tanto la lógica de los ponderadores como la necesidad de medir y comunicar la precisión de las estimaciones, lo que constituye un elemento esencial en la producción de estadísticas de calidad.

2.7.1 Ejemplo ilustrativo

Para comprender de manera más tangible la importancia de considerar el diseño muestral en la estimación de totales y sus varianzas, analicemos un ejemplo sencillo.

Supóngase una población de tamaño \(N=6\) y una muestra aleatoria simple de tamaño \(n=3\), seleccionada sin reemplazo, en la que se observan los valores \((y\_1=10, y\_2=14, y\_3=18)\). Bajo este diseño, la varianza estimada del estimador de Horvitz–Thompson se calcula como

\[ \hat{V}_{SRS}(\hat{Y}_{HT}) = \frac{N^2}{n}\left(1-\frac{n}{N}\right)S_{(y_s)}^2 \tag{9-5} \]

donde \(S\_{(y\_s)}^2\) corresponde a la varianza muestral de los valores observados. Sustituyendo en la expresión, se obtiene

\[ \hat{V}_p(\hat{Y}_{HT}) = \frac{36}{3}\left(1-\frac{3}{6}\right)16 = 96. \]

En contraste, si se ignora el diseño de muestreo, un analista inexperto podría calcular erróneamente la varianza mediante la fórmula simplificada:

\[ \frac{N^2}{n}S_{(y_s)}^2 = 192, \]

lo que conduciría a una sobreestimación de la varianza por no considerar las características del diseño de selección.

La estimación del total poblacional es \(\hat{Y}\_{HT}=84\). El error estándar correcto, calculado según el diseño de muestreo, es

\[ \sqrt{\hat{V}_p(\hat{Y}_{HT})} = \sqrt{96} \approx 9.80. \]

En cambio, si la varianza se estimara usando un método ingenuo que ignore el diseño de muestreo, el intervalo de confianza resultante sería más amplio y desalineado, lo que podría conducir a inferencias erróneas. Este ejemplo evidencia claramente la relevancia de incorporar el diseño de muestreo al estimar varianzas, errores estándar e intervalos de confianza.

Si bien la fórmula general para la estimación de la varianza \(\hat{V}*p\) es aplicable a distintos diseños de muestreo, en la práctica rara vez se utiliza porque las probabilidades de inclusión de segundo orden \(\pi*{kl}\) y los pesos pareados \(d\_{kl}\) suelen ser desconocidos para los usuarios secundarios. Incluso los propios productores de datos evitan calcular estos valores, pues existen métodos más simples y eficientes para la estimación de varianzas, como el método linealizado, la replicación y el bootstrap, que permiten cuantificar la incertidumbre sin necesidad de contar con información tan detallada.