9.1 El estimador de Horvitz-Thompson para totales y tamaños poblacionales

9.1.1 Estimación para totales

La mayoría de indicadores sociales a nivel nacional pueden verse como funciones de totales de una o más variables de interés. Por ejemplo, si el interés está en estimar un total \(t_y=\sum_U y_k\), el estimador de Horvitz-Thompson (HT) provee una metodología que induce insesgamiento.

\[ \hat{t}_{y, \pi} = \sum_s d_k y_k \]

En donde la muestra \(s\) hace referencia al subconjunto de la población que fue seleccionado siguiendo un diseño de muestreo probabilístico que induce los pesos de muestreo \(d_k\), los cuales expanden el valor de la variable de interés \(y_k\) para el \(k\)-ésimo individuo. Nótese que \(d_k\) es el inverso multiplicativo de la probabilidad de inclusión de \(k\)-ésimo individuo en la muestra, \(d_k = \pi_k^{-1}\).

Como se verá más adelante, en presencia de esquemas de estratificación y selección de conglomerados y varias etapas, esta probabilidad resulta ser el producto de las probabilidades condicionales que surgen en los subsecuentes procesos de selección probabilística. Por tanto, el peso final de muestreo resulta ser por lo general una multiplicación de factores de expansión en cada etapa o fase del esquema de muestreo. En general, este estimador toma diferentes formas a medida que el diseño de muestreo cambia. A continuación se presenta una lista no exhaustiva de algunas de los diseños más importantes en la teoría de muestreo para encuestas de hogares.

9.1.1.1 Muestreo aleatorio simple

En este caso, las probabilidades de inclusión son equivalentes para cada unidad incluida en la muestra,

\[ \pi_k =\frac{n}{N} \]

Por tanto el estimador toma la siguiente forma:

\[ \hat{t}_{y,\pi}=\frac{N}{n}\sum_s y_k \]

9.1.1.2 Muestreo proporcional al tamaño

Este diseño de muestreo induce probabilidades de inclusión proporcionales al tamaño de una característica de información auxiliar (estrictamente positiva) disponible en el marco de muestreo; por tanto las probabilidades de inclusión obedecen la siguiente relación:

\[ \pi_k=\frac{n\ x_k}{t_x} \ \ \ \ \ \ \ \ \ 0<\pi_k\leq 1 \]

Por tanto el estimador toma la siguiente forma:

\[ \hat{t}_{y,\pi}=t_x \ \sum_s\frac{y_k}{n\ x_k} \]

Por último, no es cierto que la asignación de probabilidades desiguales en las unidades de muestreo induzca sesgo en la encuesta Por ejemplo, cuando se utiliza el estimador de expansión (Hansen-Hurwitz, para el caso de muestreos con reemplazo - Horvitz-Thompson, en muestreos sin reemplazo) el sesgo es nulo bajo estas condiciones. Sin embargo, si se utilizara un estimador que no haga uso de los factores de expansión, la inferencia sí estaría sesgada. Por ende, lo natural es que si el diseño es con probabilidades desiguales, éstas se utilicen dentro de un estimador que considere esta desigualdad; luego sería incorrecto que se utilice otro estimador diferente al estimador de expansión.

9.1.1.3 Muestreo estratificado

Si \(\hat{t}_{yh,\pi}\) estima insesgadamente el total de la característica de interés \(t_{yh}\) del estrato \(h\), entonces un estimador insesgado para el total poblacional \(t_y\) está dado por \[ \hat{t}_{y,\pi}=\sum_{h=1}^H \hat{t}_{yh,\pi} \] Por ejemplo, para un diseño de muestreo aleatorio estratificado, las probabilidades de inclusión de primer orden están dadas por: \[ \pi_k = \dfrac{n_h}{N_h} \ \ \ \text{si $k\in U_h$} \]

En este caso, siendo un \(s_h\) la muestra seleccionada en el estrato \(U_h\), el estimador insesgado del total \(t_{y}\) está dado por \[ \hat{t}_{y,\pi}=\sum_{h=1}^H\dfrac{N_h}{n_h}\sum_{k\in s_h}y_k \]

9.1.1.4 Muestreo de conglomerados

En el esquema general del muestreo por conglomerados, se utiliza un diseño de muestreo específico para la selección de los conglomerados en la muestra. La probabilidad de que el \(k\)-ésimo elemento, sea incluido en la muestra \(s\) es idéntica a la porbablidad de inclusión del conglomerado al que pertenece \(\pi_{Ii}\); es decir

\[ \pi_{k}=\pi_{Ii} \ \ \ \text{si $k\in U_i$} \]

Si se asume que la población está dividida en \(N_I\) conglomerados y se selecciona una muestra de conglomerados \(s_I\) de tamaño \(n_I\), entonces para un diseño de muestreo aleatorio de conglomerados, el estimador de HT del total poblacional está dado por

\[ \hat{t}_{y,\pi}=\frac{N_I}{n_I}\sum_{s_I}t_{yi} \]

En donde \(t_{yi}\) hace referencia al total de la característica de interés en el conglomerado \(U_i\). Como se mencionó en los capítulos anteriores, definir los conglomerados con tamaños muy desiguales redunda en un aumento significativo de la varianza del estimador; es por esto que, en encuestas de hogares, se intenta crear conglomerados acotados, a nivel de manzana, o vereda. Esta es una práctica muy pertinente, puesto que la varianza del estimador de expansión estará en función de la varianza de los totales de los conglomerados; si existe una alta variación en los tamaños, habrá también una alta variación en los totales y, por consiguiente, la varianza del estimador será alta. De otra forma, si se tiene conocimiento de una característica de información auxiliar a nivel de los conglomerados (medida de tamaño), es posible hacer uso de esta información del marco para reducir la varianza en el estimador.

9.1.1.5 Muestreo en dos etapas

Bajo este diseño la probabilidad de inclusión de primer orden del \(k\)-ésimo elemento está dada por \[ \pi_{k}=Pr(k\in s)=Pr(k\in s_i|i\in s_I)\ Pr(i\in s_I)=\pi_{k|i}\ \pi_{Ii} \]

En donde \(s_i\) corresponde a la submuestra de elementos seleccionada en el conglomerado \(U_i\). En particular, cuando el diseño de muestreo es aleatorio simple en las dos etapas, y para cada unidad primaria de muestreo seleccionada \(i\in s_{I}\) de tamaño \(N_i\) se selecciona una muestra \(s_i\) de elementos de tamaño \(n_i\), entonces el estimador HT toma la siguiente forma \[ \hat{t}_{y,\pi}=\frac{N_{I}}{n_{I}}\sum_{i\in S_{I}}\frac{N_i}{n_i}\sum_{k\in s_i}y_k \]

9.1.1.6 Muestreo en dos fases

Este tipo de muestreo selecciona una muestra de elementos \(s_a\) en una primera fase en la cual se recolecta información de interés para crear una versión reducida y acotada del marco de muestreo. A partir de esta información, en una segunda fase, se realiza una nueva selección que define una submuestra \(s\), en donde se observa la característica de información auxiliar. Bajo este esquema, la probabilidad de que un elemento esté en la submuestra de la segunda fase \(s\) depende de lo que haya sucedido en la muestra de la primera fase \(s_a\); por lo tanto, la probabilidad de inclusión de cualquier elemento en la muestra final no tiene una forma cerrada y es algebraicamente intratable. Por ende, se define el estimador de Horvitz-Thompson condicionado, el cual toma la siguiente forma

\[ \hat{t}_{y,\pi^*}=\sum_{s}\frac{y_k}{\pi_{k}^*}=\sum_{s}\frac{y_k}{\pi_{ak}\pi_{k\mid{s_a}}} \]

En la anterior expresión, \(\pi_{ak}\) denota la probabilidad de inclusión del elemento en la muestra de la primera fase, mientras que \(\pi_{k\mid{s_a}}\) denota la probabilidad de inclusión del elemento a la submuestra de la segunda fase, condicionada a que haya sido incluido en la primera fase.

9.1.2 El estimador HT en una encuesta de hogares regular

Suponga un diseño regular en una encuesta de hogares; por ejemplo, asuma que se tiene un esquema estratificado de \(H\) estratos, con dos etapas de selección dentro de cada estrato (la primera etapa con selección de UPM dentro del estrato, la segunda con selección de hogares), entonces el peso de muestreo final y el estimador del total estará dado por la siguiente expresión

\[ \hat{t}_{y, \pi} = \sum_s d_k y_k = \sum_h \sum_{i \in s_{Ih}} \sum_{k \in s_{hi}} w_{hik} y_{hik} \]

Por ejemplo, si dentro de cada estrato \(U_h\) \(h=1,\ldots, H\) existen \(N_{Ih}\) unidades primarias de muestreo, de las cuales se selecciona una muestra \(s_{Ih}\) de \(n_{Ih}\) unidades mediante un diseño de muestreo aleatorio simple; y además, se considera que el sub-muestreo dentro de cada unidad primaria seleccionada es también aleatorio simple, de tal manera que para cada unidad primaria de muestreo seleccionada \(U_i\in s_{Ih}\) de tamaño \(N_i\) se selecciona una submuestra \(s_i\) de elementos de tamaño \(n_i\), entonces la forma final del estimador de Horvitz-Thompson para el total poblacional quedaría expresada de la siguiente manera:

\[ \hat{t}_{y,\pi}=\sum_{h=1}^H\hat{t}_{yh,\pi}=\sum_{h=1}^H\left[\frac{N_{Ih}}{n_{Ih}}\sum_{i\in S_{Ih}}\frac{N_i}{n_i}\sum_{k\in s_i}y_k\right] \]

9.1.3 Estimación para tamaños y totales en dominios

En general todas las expresiones para totales son apropiadas para tamaños poblacionales, puesto que la variable \(y_k = 1 \ \forall k \in s\). De esta forma, el estimador HT para un tamaño está dado por la suma de los factores de expansión:

\[ \hat{N} = \sum_s d_k \]

Bajo un diseño regular en una encuesta de hogares, con un esquema estratificado y dos etapas de selección, el estimador del tamaño poblacional estará dado por la siguiente expresión

\[ \hat{N} = \sum_s d_k = \sum_h \sum_{i \in s_{Ih}} \sum_{k \in s_{hi}} w_{hik} \]

Al asumir un diseño de muestreo estratificado bietápico, con selección aleatoria simple en cada etapa, entonces la forma final del estimador de Horvitz-Thompson para el tamaño poblacional quedaría de la siguiente manera:

\[ \hat{N}_{\pi}=\sum_{h=1}^H\left[\frac{N_{Ih}}{n_{Ih}}\sum_{i\in S_{Ih}}\frac{N_i}{n_i}\sum_{k\in s_i}1\right] \]

Como lo afirma H. A. Gutiérrez (2016), en muchas investigaciones es necesario llevar a cabo estimaciones sobre la población en general, y también sobre subgrupos de ella (denominados dominios por la subcomisión en muestreo de las Naciones Unidas). La identificación de los dominios se logra una vez la información de los elementos ha sido registrada. Los dominios tienen que cumplir las siguientes características:

  1. Ningún elemento de la población puede pertenecer a dos dominios.
  2. Todo elemento de la población debe pertenecer a un dominio.
  3. La reunión de todos los dominios es la población del estudio.

La estimación por dominios se caracteriza por el desconocimiento previo de la pertenencia de las unidades poblacionales al dominio. Es decir, para conocer cuáles unidades de la población pertenecen al dominio, es necesario realizar el proceso de medición. En primer lugar construir una función indicadora \(z_{dk}\) de la pertenencia del elemento al dominio, la cual toma el valor 1, si el elemento \(k\) pertenece al dominio \(U_d\) \((k\in U_d)\), y toma el valor 0, en otro caso. Ahora se puede utilizar los principios del estimador de Horvitz-Thompson para hallar un estimador insesgado del tamaño del dominio \(U_d\), dado por:

\[ \hat{N}_d = \sum_{s_d} d_k \]

Al multiplicar la variable de pertenencia \(z_{dk}\) por el valor de la característica de interés \(y_k\), se crea una nueva variable \(y_{dk}\) dada por \(y_{dk}=z_{dk} \ y_k\), y una vez construida es posible definir el estimador insesgado del total de la característica de interés en el dominio \(U_d\), dado por: \[ \hat{t}_{y_d,\pi}=\sum_sd_k\ y_{dk}=\sum_{S_d}d_ky_k \]

Referencias

———. 2016. Estrategias de muestreo: diseño de encuestas y estimación de parámetros. Segunda edición. Ediciones de la U.