5.4 Metodologías multivariadas sobre la matriz de información

Partiendo de la matriz de información \(\mathbf{X}\) a nivel de las UPM, la cual contiene \(N_I\) filas y \(P\) columnas, es posible considerar algunos procedimientos que no necesitan de la reducción a una sola dimensión, sino que admiten tantas dimensiones como indicadores definidos en las columnas de \(\mathbf{X}\). Teniendo en cuenta que en el periodo intercensal se realizarán encuestas que miden variables que están fuertemente ligadas a las observadas en el censo, entonces encontrar una estratificación que sea óptima para todo el conjunto de variables de la matriz de información asegurará una partición óptima para todas las encuestas realizadas en el periodo intercensal. Las siguientes metodologías permiten optimizar conjuntamente la eficiencia de la estratificación.

5.4.1 K-medias de Jarque (KmJ)

Jarque (1981) propuso utilizar una versión modificada del algoritmo de K-medias (Macqueen 1967), cuyo objetivo es la minimización de la siguiente función de distancia:

\[ \sum_{h=1}^H \sum_{k\in U_h}(\mathbf x_k - \bar {\mathbf x}_h)'\boldsymbol \Lambda^{-1}(\mathbf x_k - \bar {\mathbf x}_h) \]

En donde \(\mathbf x_k\) corresponde a la medición de las \(P\) variables de la matriz de información en la \(k\)-ésima UPM, \(\bar {\mathbf x}_h\) es el vector de medias de la matriz de información en el estrato \(h\) y \(\boldsymbol \Lambda\) es una matriz diagonal de tamaño \(P \times P\) cuyas entradas se definen como la varianza de las \(P\) variables de la matriz \(\mathbf X\), es decir \(\boldsymbol \Lambda [p,p]=S^2_{x_p}\), con \(p = 1, 2, \ldots, P\). Esta modificación tiene como objetivo minimizar la relación entre la varianza de un estimador de muestreo estratificado con asignación proporcional y la de un muestreo aleatorio simple. Cuando \(\boldsymbol \Lambda = \mathbf I\), el algoritmo resultante es idéntico al algoritmo clásico de K-medias, propuesto por Macqueen (1967).

5.4.2 Partición genética (BB)

Ballin y Barcaroli (2013) argumentan que la mejor estratificación es aquella partición del marco de muestreo que asegura el mínimo costo muestral que satisfaga algunas restricciones de precisión; o, que maximice la precisión de los indicadores de interés bajo las restricciones. De esta forma, el algoritmo busca minimizar la siguiente función de costos

\[ c_0 + \sum_{h=1}^{H} c_h n_h \]

En donde \(c_0\) define un costo fijo y \(c_h\) es el costo promedio de observar un hogar en el estrato \(h\). En principio, es posible definir \(c_0=0\) y \(c_1 = c_2 = \cdots = c_H = 1\), lo cual da como resultado que el costo es el número de encuestas que deben realizarse en cada estrato. Este problema de optimización se complementa manteniendo las siguientes restricciones:

\[ \sum_{h=1}^{H} \left(\frac{N_h^2}{n_h}\right)\left(1-\frac{n_h}{N_h}\right) S^2_{x_h,p} \leq V_{0p}\ \ \ \ \ \ p = 1, 2, \ldots, P. \]

En donde \(V_{0p}\) es un umbral predefinido por el usuario, que indica que la varianza de la estrategia estratificada está acotada; además, \(S^2_{x_h,p}\) es la varianza poblacional de \(p\)-ésima variable de la matriz de información en el estrato \(h\). Haciendo uso de algoritmos genéticos evolutivos, esta estratificación multivariada del marco de muestreo parte de la consideración de estratificaciones univariadas independientes (una para cada variable de la matriz de información) y de la definición del producto cartesiano resultante de todas estas particiones (estratos atómicos). Este universo de posibles estratificaciones evoluciona, uniendo grupos de forma jerárquica, sujeto a las restricciones de precisión sobre cada variable de la matriz de información, hasta converger en el número de estratos definidos de antemano \(H\).

Referencias

Ballin, Marco, y Giulio Barcaroli. 2013. «Joint determination of optimal stratification and sample allocation using genetic algorithm». Survey Methodology 39 (2): 369-93.
Jarque, Carlos M. 1981. «A Solution to the Problem of Optimum Stratification in Multivariate Sampling». Journal of the Royal Statistical Society. Series C (Applied Statistics) 30 (2): 163-69. https://doi.org/10.2307/2346387.
Macqueen, J. 1967. «Some methods for classification and analysis of multivariate observations». En Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 281-97. University of California Press.