5.3 Metodologías univariadas sobre medidas de resumen

Es bien sabido que la mejor estratificación para una variable de interés es aquella que nace de su propia variación. Durante muchos años, se desarrollaron técnicas de estratificación sobre una sola variable de interés que dejaban de lado el carácter multipropósito de cualquier encuesta de hogares. Por esta razón, se sugiere partir de la matriz de información y resumir la variación y las correlaciones entre variables mediante alguna técnica multivariada de reducción de datos, como componentes principales, análisis factorial, o modelos no lineales. Como la matriz de información está en escala de porcentajes, es posible que la variabilidad recogida por la medida de resumen sea alta.

Por ejemplo, si se utiliza la técnica de componentes principales, entonces se tomaría como medida de resumen el primer componente, que resulta ser función del vector propio asociado al mayor valor propio de la matriz de covarianzas asociada a la matriz de información. Por otro lado, si se utilizara un análisis factorial confirmatorio, la medida de resumen podría ser el eje principal con la carga factorial más alta. La interpretación de estas medidas de resumen es una parte importante en la aplicación de las técnicas de estratificación. Nótese que la matriz de información está construida por cinco constructos censales (demografía y estructura de la población, educación, mercado de trabajo, características de la vivienda y acceso a servicios básicos) que deberían ser resumidos en una medida de bienestar de la UPM, que a su vez debe tener sentido en cuanto a la relación (o contribución) de las variables al componente o factor. En adelante, se utilizará la siguiente notación para referirse a la medida de resumen como función de todas las variables incorporadas en la matriz de información:

\[ y = f(x_1,\ldots, x_P) \]

Nótese que se esperaría que esta variable de resumen, al estar definida como una medida de bienestar sobre las UPM, tuviera un comportamiento sesgado, tal como se puede observar en la figura 5.1. Por ende, si esta característica es altamente sesgada, puede ser recomendable crear un estrato de inclusión forzosa con estas unidades. Esta práctica asegura que el error de muestreo para este estrato sea nulo. A continuación se enumeran algunas técnicas de estratificación comúnmente utilizadas en la práctica estadística.

*Histograma de la medida de resumen (y) sobre las UPM*

Figura 5.1: Histograma de la medida de resumen (y) sobre las UPM

5.3.1 Partición en cuantiles (Q)

Este método divide la población de UPM en grupos creados a partir de la división en intervalos regulares de la distribución de la medida de resumen. Los cuantiles más usados son los cuartiles (que dividen la población en cuatro grupos), los quintiles (que dividen la población en cinco grupos) y los deciles (que dividen la población en 10 grupos); sin embargo, con los propósitos de estratificación, también es útil considerar la partición en terciles (que dividen la población en tres grupos).

5.3.2 Método de raíz de frecuencia acumulada (DH)

Dalenius y Hodges (1959) propusieron esta técnica de estratificación basada en la raíz cuadrada de las frecuencias acumuladas de la medida de resumen sobre las UPM. Esta técnica es exacta y no requiere de algún procedimiento iterativo. La idea principal de esta técnica es encontrar grupos que minimicen la siguiente función:

\[ D = \sum_{h=1}^H W_h \sqrt{S^2_{y_{h}}} \]

En donde \(W_h = N_h/N\) (\(h = 1, \ldots, H\)) es el tamaño relativo del estrato \(h\) y \(S^2_{y_{h}}\) es la varianza de la medida de resumen en el estrato \(h\).

5.3.3 Estratificación óptima (LH)

Lavallée y Hidiroglou (1988) propusieron por primera vez la construcción de una estratificación óptima para poblaciones de encuestas reales, basada en la minimización de la siguiente expresión ligada a la varianza de una estrategia de muestreo estratificada.

\[ \sum_{h=1}^{H-1} \left(\frac{N_h}{N}\right)^2\left(\frac{1}{(n-N_H)a_h}-\frac{1}{N_h}\right) S^2_{x_h} \]

En donde \(N_h\) es el número de UPM en el estrato \(h\), \(n\) es el tamaño de muestra de las UPM, \(N\) es el número de UPM en el marco de muestreo, \(S^2_{x_h}\) es la varianza de la medida de resumen en el estrato \(h\). Finalmente \(a_h\) es la regla de asignación para el tamaño de muestra, dada por la siguiente relación:

\[ a_h = \frac{\gamma_h}{\sum_h \gamma_h} \]

En donde, tomando en cuenta que \(\bar{X}_h\) es la media de la medida de resumen en el estrato \(h\), entonces, según (Baillargeon y Rivest 2011), \(\gamma_h\) es proporcional al tamaño de muestra \(n\) y está definida por:

\[ \gamma_h = N_h^{2q_1} \times \bar{X}_h^{2q_2} \times S^{2q_3}_{x_h} \]

Por tanto, dado que \(n_h = n \times \gamma_h\), si se quisiera una estrategia de muestreo que asigne el tamaño de muestra de manera proporcional a cada uno de los estratos, entonces la regla de asignación debería estar determinada por

\[ \mathbf q = (q_1, q_2, q_3)' = (0.5, 0, 0)' \]

La asignación de Neyman corresponderá con \(\mathbf q = (0.5, 0, 0.5)'\); mientras que la asignación de potencia con exponente 0.7 estará dada por \(\mathbf q = (0.35, 0.35, 0)'\). Los detalles técnicos de estos tipos de asignación pueden ser encontrados en H. A. Gutiérrez (2016).

La optimización de la función objetivo puede ser llevada a cabo de diferentes formas. En efecto, Lavallée y Hidiroglou (1988) utilizaron un algoritmo de optimización (Sethi) para encontrar los valores óptimos. Baillargeon, Rivest, y Ferland (2007) definen los pasos necesarios para implementar el procedimiento basado en el algoritmo de Sethi. Asimismo, Kozak (2004) definió un algoritmo iterativo mediante arranques aleatorios para optimizar el proceso de minimización de esta técnica de estratificación.

5.3.4 Estratificación geométrica (GH)

Utilizando las técnicas de estratificación mencionadas anteriormente, algunos autores se percataron de que, para poblaciones de UPM con medidas de resumen sesgadas, las varianzas relativas (coeficientes de variación) de la medida de resumen en cada estrato eran similares; es decir:

\[ \frac{S_{x_1}}{\bar{X}_1} \cong \frac{S_{x_2}}{\bar{X}_2} \cong \cdots \cong\frac{S_{x_H}}{\bar{X}_H} \]

Gunning y Horgan (2004) tomaron esta evidencia en consideración y desarrollaron este método con el objetivo de que los coeficientes de variación de la medida de resumen tiendan a ser iguales dentro de los estratos y, de esta forma, encontraron que los límites que definían estos grupos estaban conformados en progresión geométrica. Siendo \(X\) la variable que contiene la información de la medida de resumen para todas la UPM del marco de muestreo, entonces los límites de los estratos estarán dados por la siguiente expresión:

\[ b_h = \min(X) \left( \frac{\max X}{\min X} \right) ^ {h/L}; \ \ \ \ \ \ \ \ h = 1, 2, \ldots, H-1. \]

Es posible encontrar que los coeficientes de variación de los estratos conformados por estos límites son equivalentes y por ende, este método es óptimo para encontrar mejores formas de estratificar teniendo en cuenta como función objetivo la variación relativa dentro los estratos.

Referencias

Baillargeon, Sophie, y Louis-Paul Rivest. 2011. «The construction of stratified designs in R with the package stratification». Survey Methodology 37 (1): 53-65.
Baillargeon, Sophie, Louis-Paul Rivest, y Michel Ferland. 2007. «STRATIFICATION EN ENQUÊTES ENTREPRISES: UNE REVUE ET QUELQUES AVANCÉES». Assemblée annuelle de la SSC, Recueil de la Section des méthodes d’enquête, 8.
Dalenius, Tore, y JosrEPH L Hodges. 1959. «Minimum Variance Stratification». Journal of the American Statistical Association 54 (285): 15.
Gunning, Patricia, y Jane M Horgan. 2004. «A New Algorithm for the Construction of Stratum Boundaries in Skewed Populations». Survey Methodology 30 (2): 159-66.
———. 2016. Estrategias de muestreo: diseño de encuestas y estimación de parámetros. Segunda edición. Ediciones de la U.
Kozak, Marcin. 2004. «Optimal Stratification Using Random Search Method in Agricultural Surveys». Statistic in Transition 6 (5): 797-806.
Lavallée, Pierre, y Michael A. Hidiroglou. 1988. «On the Stratification of Skewed Populations». Survey Methodology 14 (1): 33-43.