11.2 La técnica del último conglomerado

Debido a las dificultades algebraicas y computacionales, estimar la varianza en encuestas complejas que contemplan esquemas de conglomeración, selección en varias etapas y estratificación, puede tornarse bastante tedioso, costoso y además muy demorado. En esta sección se explica por qué la técnica del último conglomerado resulta ser una buena opción a la hora de aproximar la varianza en una encuesta compleja.

Para la estimación de la varianza de los estimadores de interés en encuestas multietápicas, los programas computacionales existentes utilizan una aproximación conocida como la técnica del último conglomerado (ultimate cluster). Esta aproximación, que sólo tiene en cuenta la varianza de los estimadores en la primera etapa, supone que ese muestreo fue realizado con reemplazo. Los procedimientos de muestreo en etapas posteriores de la selección son ignorados a menos que el factor de corrección para poblaciones finitas no sea despreciable a nivel de la primera etapa de muestreo.

En particular, considere cualquier estimador del total poblacional dado por la siguiente combinación lineal

\[ \hat{t}_{y,\pi}=\sum_{k\in s} d_k y_k = \sum_{k\in U} I_k d_k y_k \]

En donde \(I_k\) son variables indicadoras de la pertenencia del elemento \(k\) a la muestra \(s\). Ahora, asumiendo que el factor de expansión de la encuesta \(d_k\) cumple con los supuestos básicos de un ponderador que hace insesgado a \(\hat{t}_{y}\), es decir:

\[ E_p(I_k d_k) = 1 \]

Suponiendo un diseño de muestreo en varias etapas (dos o más) en donde la primera etapa supone la selección de una muestra \(s_I\) de \(m_I\) unidades primarias de muestreo (UPM) \(U_i\) (\(i\in s_I\)) de tal forma que

  • Si la selección se realizó con reeemplazo, la \(i\)-ésima UPM tiene probabilidad de selección \(p_{I_i}\).
  • Si la selección se realizó sin reeemplazo, la \(i\)-ésima UPM tiene probabilidad de inclusión \(\pi_{I_i}\).

En las subsiguientes etapas de muestreo, se procede a seleccionar una muestra de elementos para cada una de las UPM seleccionadas en la primera etapa de muestreo. Dentro de la \(i\)-ésima UPM se selecciona una muestra \(s_i\) de elementos; en particular la probabilidad condicional de que el \(k\)-ésimo elemento pertenzca a la muestra dada que la UPM que la contiene ha sido seleccionada en la muestra de la primera etapa está dada por la siguiente expresión:

\[ \pi_{k|i} = Pr(k \in s_i | i \in s_I) \]

Por ejemplo, si el muestreo es sin reemplazo en todas sus etapas, la probabilidad de inclusión del \(k\)-ésimo elemento a la muestra \(s\) está dada por

\[\begin{align*} \pi_k & = Pr(k \in s)\\ & = Pr(k \in s_i, i \in s_I) \\ & = Pr(k \in s_i | i \in s_I) Pr(i \in s_I) = \pi_{k|i} \times \pi_{I_i} \end{align*}\]

Dado que el inverso de las probabilidades de inclusión son un ponderador natural, entonces se definen las siguientes cantidades:

  1. \(d_{I_i} = \frac{1}{\pi_{I_i}}\), que es el factor de expansión de la \(i\)-ésima UPM.
  2. \(d_{k|i} = \frac{1}{\pi_{k|i}}\), que es el factor de expansión del \(k\)-ésimo elemento dentro para la \(i\)-ésima UPM.
  3. \(d_k = d_{I_i} \times d_{k|i}\), que es el factor de expansión final del \(k\)-ésimo elemento para toda la población \(U\).

Desde la teoría de muestreo, es posible evidenciar que si el diseño de muestreo es con reemplazo entonces, además del estimador HT, existe otro estimador insesgado que puede considerarse, conocido como el estimador de Hansen-Hurwitz (HH) (H. A. Gutiérrez 2016). A diferencia del estimador HT, el estimador HH tiene una expresión de varianza muy sencilla de calcular, y por consiguiente las expresiones de la estimación de la varianza del estimador HH son más manejables desde el punto de vista computacional. En efecto, bajo un diseño de muestreo en varias etapas, el estimador de Hansen-Hurwitz para el total poblacional está dada por la siguiente expresión:

\[ \hat{t}_{y,p}=\frac{1}{m_I}\sum_{i=1}^{m_I}\frac{\hat{t}_{y_i}}{p_{I_i}} \]

En donde \(p_{Ii}\) corresponde a la probabilidad de selección de la unidad \(i\), mientras que \(m_I\) es el tamaño de muestra (con reemplazo) del muestreo en la primera etapa. En este caso, la varianza estimada del estimador HH es:

\[ \widehat{Var}(\hat{t}_{y,p})=\frac{1}{m_I(m_I-1)}\sum_{i=1}^{m_I}\left(\frac{\hat{t}_{y_i}}{p_{I_i}}-\hat{t}_{y,p}\right)^2 \]

En donde las cantidades \(\hat{t}_{y_i}\) representan lo totales estimados de la variable de interés en la \(i\)-ésima UPM y están dados por:

\[ \hat{t}_{y_i} = \sum_{k \in s_i} \frac{y_k}{\pi_{k|i}} = \sum_{k \in s_i} d_{k|i} y_k \]

El espíritu de la técnica del último conglomerado consiste en utilizar la expresión de la estimación de la varianza del estimador HH en vez de la expresión exacta en diseños de muestreo complejos que no contemplan selecciones con reemplazo en la primera etapa. Para lograrlo, algunas cantidades deben ser equiparadas antes de poder utilizar esta aproximación. Utilizar la aproximación de la varianza requiere equiparar los términos de manera apropiada. En primer lugar, fijémonos en los estimadores \(\hat{t}_{y,p}\) y \(\hat{t}_{y,\pi}\). Para realizar esta comparación, se requiere que se asuma la siguiente igualdad en las probabilidades de inclusión de la primera etapa:

\[ \pi_{I_i} = p_{I_i} \times m_I \]

Por lo tanto, el estimador del total poblacional quedaría definido como un estimador tipo Hanwen-Hurwitz. En efecto,

\[ \hat{t}_{y,\pi} =\sum_{k\in s} d_k y_k = \sum_{i=1}^{m_I}\sum_{k \in s_i} d_k y_k = \sum_{i=1}^{m_I}\sum_{k \in s_i} \frac{1}{\pi_{I_i} \pi_{k|i}} y_k = \sum_{i=1}^{m_I}\frac{\hat{t}_{y_i}}{\pi_{I_i}} \approx \frac{1}{m_I}\sum_{i=1}^{m_I}\frac{\hat{t}_{y_i}}{p_{I_i}} \]

Ahora, dado que la forma del estimador ha sido equiparada con un estimador tipo Hanwen-Hurwitz, es posible utilizar su estimación de varianza. Aún más, después de un poco de álgebra es posible tener la siguiente aproximación, cuya gran ventaja es que sólo hace uso de los factores de expansión finales \(d_k\), que suelen ser reportados por los INE cuando liberan los microdatos de sus encuestas, en vez de los factores de expansión de la primera etapa o los factores de expansión condicionales dentro de las UPM.

\[\begin{align*} \widehat{Var}(\hat{t}_{y,p})&=\frac{1}{m_I(m_I-1)}\sum_{i=1}^{m_I}\left(\frac{\hat{t}_{y_i}}{p_{I_i}}-\hat{t}_{y}\right)^2\\ &=\frac{m_I}{m_I-1}\sum_{i=1}^{m_I}\frac{1}{m_I^2}\left(\frac{\sum_{k \in s_i} d_{k|i} y_k }{p_{I_i}}-\sum_{i=1}^{m_I}\sum_{k \in s_i} d_k y_k \right)^2 \\ &=\frac{m_I}{m_I-1}\sum_{i=1}^{m_I}\left(\frac{\sum_{k \in s_i} d_{k|i} y_k }{m_I p_{I_i}}-\frac{1}{m_I}\sum_{i=1}^{m_I}\sum_{k \in s_i} d_k y_k \right)^2 \\ &=\frac{m_I}{m_I-1}\sum_{i=1}^{m_I}\left(\frac{\sum_{k \in s_i} d_{k|i} y_k }{\pi_{I_i}}-\frac{1}{m_I}\sum_{i=1}^{m_I}\sum_{k \in s_i} d_k y_k \right)^2 \\ &=\frac{m_I}{m_I-1}\sum_{i=1}^{m_I}\left( \sum_{k \in s_i} d_k y_k -\frac{1}{m_I}\sum_{i=1}^{m_I}\sum_{k \in s_i} d_k y_k \right)^2 \end{align*}\]

Basado en lo anterior, al definir \(\breve{t}_{y_i} = \sum_{k \in s_i} d_k y_k\) como la contribución14 de la \(i\)-ésima UPM a la estimación del total poblacional y \(\bar{\breve{t}}_{y}=\frac{1}{m_I}\sum_{i=1}^{m_I}\breve{t}_{y_i}\) como la contribución promedio en el muestreo de la primera etapa, entonces el estimador de varianza toma la siguiente forma, conocida como el estimador de varianza del último conglomerado.

\[\begin{align} \label{UC} \widehat{Var}(\hat{t}_{y,p}) =\frac{m_I}{m_I-1}\sum_{i=1}^{m_I}\left( \breve{t}_{y_i} -\frac{1}{m_I}\sum_{i=1}^{m_I}\breve{t}_{y_i} \right)^2 =\frac{m_I}{m_I-1}\sum_{i=1}^{m_I}\left( \breve{t}_{y_i} - \bar{\breve{t}}_{y} \right)^2 \end{align}\]

Por ejemplo, si el escenario de muestreo planteado en la encuesta es estratificado, con tres etapas de selección dentro de cada estrato, entonces al utilizar la técnica del último conglomerado, la aproximación del estimador de la varianza estaría dada por

\[ \widehat{Var}(\hat{t}_{y,p}) = \sum_h\frac{n_h}{n_h-1}\sum_{i\in s_h}\left(\hat{t}_{y_i}-\bar{\hat{t}}_{y_h}\right)^2 \]

En donde \(\hat{t}_{y_i} = \sum_{k \in s_{hi}} w_k y_k\), \(\bar{\hat{t}}_{y_h}=(1/n_h)\sum_{i \in s_h}\hat{t}_{y_i}\) y \(n_h\) es el número de UPMs seleccionadas en el estrato \(h\). Este procedimiento, propuesto por Hansen, Hurwitz, y Madow (1953) tiende a sobrestimar la varianza verdadera, aunque resulta ser una técnica apetecida por los investigadores puesto que utiliza directamente los pesos finales de muestreo o factores de expansión que son publicados por los INE.

Utilizar la técnica del último conglomerado es una salida práctica al problema de la estimación de la varianza que, para la mayoría de encuestas que brindan estadísticas oficiales a los países, puede tornarse bastante complejo. Si bien, la expresión del estimador de la varianza no constituye un estimador estrictamente insesgado, sí se considera una aproximación bastante precisa.

Por último, es importante reflexionar acerca de la definición práctica y el concepto que envuelven esta aproximación ¿Qué es un último conglomerado? Es la primera unidad de muestreo en un diseño complejo. Por ejemplo, considere el siguiente diseño de muestreo en cuatro etapas:

\[\begin{equation*} \underbrace{\textbf{Municipio}}_{\text{UPM}} \Rrightarrow \underbrace{\textbf{Sector}}_{\text{USM}} \Rrightarrow \underbrace{\textbf{Vivienda}}_{\text{UTM}} \Rrightarrow \underbrace{\textbf{Hogar}}_{\text{UFM}} \end{equation*}\]

En la primera las unidades primarias de muestreo (UPM) son los municipios; dentro de cada municipio, se seleccionan unidades secundarias de muestreo (USM) que corresponden a sectores cartográficos; de esta forma, el submuestreo continua hasta seleccionar las unidades finales de muestreo (UFM) que son los hogares.

Ahora, por lo general, la primera etapa de muestreo de una encuesta está inducida por dos tipos de diseños: estratificado o con probabilidad de selección proporcional al tamaño del municipio. En cualquiera de los dos casos, se crean subgrupos de inclusión forzosa. En el muestreo estratificado serán las ciudades grandes y en el muestreo proporcional también, puesto que la medida de tamaño inducirá probabilidades de inclusión mayores a uno. Luego, para poder aplicar la aproximación en este caso, los municipios pertenecientes a este subgrupo de inclusión forzosa no serán considerados UPM, sino que inducirán un estrato de ciudades grandes. En cada ciudad de este estrato se realizará un muestreo de la siguiente manera:

\[\begin{equation*} \underbrace{\textbf{Sector}}_{\text{UPM}} \Rrightarrow \underbrace{\textbf{Vivienda}}_{\text{USM}} \Rrightarrow \underbrace{\textbf{Hogar}}_{\text{UFM}} \end{equation*}\]

Es necesario tener en cuenta esta particularidad de algunas encuestas para poder aplicar correctamente esta técnica de aproximación de varianzas. En resumen, para aquellas ciudades que pertenecen al estrato de inclusión forzosa, las UPM serán los sectores cartográficos, y para el resto del país, las UPM serán los municipios cuya probabilidad de inclusión en la muestra de la primera etapa es menor a uno.

Referencias

———. 2016. Estrategias de muestreo: diseño de encuestas y estimación de parámetros. Segunda edición. Ediciones de la U.
Hansen, Morris H, William N Hurwitz, y William G Madow. 1953. Sample survey methods and theory. Vol. 1. Wiley New York.

  1. Note que la suma de estas contribuciones en la muestra de la primera etapa da como resultado la estimación \(\hat{t}_y\).↩︎