6.3 Coordinación de muestras

En la realidad, las Oficinas Nacionales de Estadística no realizan una sola encuesta, sino varias en un mismo año. Más aún, una misma encuesta continua puede tener muchos levantamientos en un mismo año. Es por esta razón que, en la administración de los marcos de muestreo, uno de los tópicos más importantes es la coordinación de muestras en el tiempo y entre encuestas. Cuando se define un marco de muestreo nuevo, debido a la realización de un censo de población y vivienda, debe existir una planificación rigurosa que le permita conocer de antemano a los equipos técnicos de las ONE cuáles UPM serán seleccionadas a lo largo del siguiente periodo intercensal y esta relación debe estar supeditada a todas las operaciones estadísticas basadas en encuestas de hogares.

A pesar de que esta planeación pueda parecer muy exigente, puesto que un periodo intercensal puede durar más de diez años, es necesaria para evitar el desgaste de las UPM en las muestras maestras, y el agotamiento de los respondientes. En vez de esto, la planificación rigurosa permitirá establecer de antemano los procesos logísticos, administrativos y preseupuestales para la recolección de la información primaria para todas las encuestas que se lleven a cabo en este periodo. Esta planificaación además debe atender a estrictos parámetros estadísticos en la selección de las muestras de cada encuesta. Es decir, la sección de las UPM debe respetar el diseño propuesto en cada operación estadística, incluyendo los esquemas rotativos a lo largo del periodo intercensal.

6.3.1 Tipos de coordinación

En esta sección se introducirán los fundamentos de los mecanismos de selección y coordinación de muestras para lograr el objetivo de planificación. En primer lugar, se establece que una muestra es positivamente coordinada con otra, si comparten todos sus elementos. De la misma forma dos muestras son negativamente coordinadas si no comparten ningún elemento en común. Nótese que en el caso de las encuestas con esquemas rotacionales complejos, existirán muestras parcialmente coordinadas y negativamente coordinadas. Por ejemplo, en un esquema rotacional 2(2)2, cualesquiera dos muestras de periodos consecutivos tendrán un traslape del 50% y estarán parcialmente coordinadas; sin embargo, en este mismo esquema, dos muestras que estén distanciadas por dos periodos consecutivos no tendrán ningún traslape y deberán estar negativamente coordinadas.

Para lograr este cometido es posible utilizar esquemas de selección secuenciales (H. A. Gutiérrez 2016) que utilicen números aleatorios asignados a cada UPM en el marco de muestreo. En general, existen dos tipos de números aleatorios que se pueden usar en la coordinación de muestras, incluso si se trata de muestras que vienen de diferentes diseños de muestreo. A continuación se describen cada uno de los métodos

  • Números aleatorios permanentes: cada unidad del marco recibirá un número aleatorio venido de una distribución uniforme en el intervalo unitario. Es decir a cada unidad \(i \in U_I\) se le asignara el siguiente número: \[ \xi_i^P \sim Uniforme\ (0, 1) \] Evidentemente, en este caso los números aleatorios permanentes no son equidistantes.
  • Números aleatorios colocados: a partir de los números aleatorios \(\xi_i\) creados en el paso anterior, es posible utilizar su rango para definir su ordenamiento y mediante la siguiente función crear números aleatorios equidistantes: \[ \xi_i^C= \dfrac{\text{Rango}(\xi_i^P) - \varepsilon}{N} \] En donde \(\varepsilon\) es un único valor aleatorio entre cero y uno. Como ilustración, considere una población de tamaño \(N = 10\), para la que se han definido números aleatorios \(\xi_i^C\) y, teniendo en cuenta un número aleatorio \(\varepsilon = 0.283\), también se definen \(\xi_i^P\). La tabla 6.1 muestra los números aleatorios resultantes.
Tabla 6.1: Ejemplo reducido de la conformación de números aleatorios permanentes y colocados.
Unidad xi_P xi_C
1 0.2875 0.1717
2 0.7883 0.6717
3 0.4089 0.2717
4 0.8831 0.7717
5 0.9404 0.9717
6 0.0455 0.0717
7 0.5281 0.4717
8 0.8924 0.8717
9 0.5514 0.5717
10 0.4566 0.3717

6.3.2 Coordinación de muestras aleatorias simples

Para seleccionar una muestra aleatoria simple \(s\) de tamaño \(n\), se deberá ordenar el marco de muestreo de forma ascendente de acuerdo a los números \(\xi_i^P\). De esta forma, la muestra \(s\) estará compuesta por lo primeros \(n\) registros del marco ordenado (o por los últimos \(n\) registros).

Es así como, para coordinar dos muestras \(s^1\) de tamaño \(n_1\) y \(s^2\) de tamaño \(n_2\), Ohlsson (1995) menciona que es posible escoger dos constantes \(a_1\) y \(a_2\) en el intervalo \((0, 1)\). Luego, a partir del marco ordenado con los números aleatorios permanentes (o colocados), definir la muestra \(s_1\) como las primeras \(n_1\) unidades a la derecha (o izquierda) de \(a_1\) y la muestra \(s_2\) como las primeras \(n_2\) unidades a la derecha (o izquierda) de \(a_2\). Si se quieren muestras positivamente coordinadas, entonces \(a_1 = a_2\); por el contrario, si se quieren muestras negativamente coordinadas, se deberán escoger las constantes de forma apropiada. Por ejemplo sumar 0.5 (en módulo uno) a la constante \(a_1\); es decir, \(a_2 = (a_1 + 1/2) \mod{1}\). En general, si se quieren coordinar negativamente \(Q\) diferentes muestras, Grafstrom y Matei (2015) aconsejan añadir la cantidad de \(1/Q\) (en módulo uno) a la constante \(a_1\).

Continuando con el ejemplo reducido, la tabla 6.2 muestra la selección de dos muestras negativamente coordinadas de tamaño \(n_1 = n_2 =3\), con \(a_1 = 0\) y \(a_2 = 0.5\).

Tabla 6.2: Ejemplo de la selección de dos muestras aleatorias simples coordinadas negativamente.
Unidad xi_P s_1 s_2
6 0.0455 1 0
1 0.2875 1 0
3 0.4089 1 0
10 0.4566 0 0
7 0.5281 0 1
9 0.5514 0 1
2 0.7883 0 1
4 0.8831 0 0
8 0.8924 0 0
5 0.9404 0 0

6.3.3 Coordinación de muestras proporcionales

Es posible utilizar varios algoritmos de selección proporcionales a la medida de tamaño de las UPM correspondiente generalmente al número de hogares que la habita. El primero de ellos es el método de Poisson secuencial (Ohlsson 1995), que define los siguientes números aleatorios permanentes para cada UPM:

\[ \xi_i^{pps} = \frac{\xi_i^P}{N_I \times p_i} \] En donde \(N_I\) es el número de UPM en el marco de muestreo y \(p_i = Ni/N\) es la proporción de hogares en la \(i\)-ésima UPM. De esta forma, al ordenar el marco mediante los números \(\xi_i^{pps}\) y seleccionar los primeros elementos, se obtendrá una muestra secuencial de Poisson. En cuanto a la coordinación de muestras, es posible aplicar los mismos principios de la sección anterior. Es decir, para coordinar dos muestras \(s^1\) de tamaño \(n_1\) y \(s^2\) de tamaño \(n_2\), es posible escoger dos constantes \(a_1\) y \(a_2\) en el intervalo \((0, 1)\). Luego, a partir del marco ordenado, definir la muestra \(s_1\) como las primeras \(n_1\) unidades a la derecha (o izquierda) de \(a_1\) y la muestra \(s_2\) como las primeras \(n_2\) unidades a la derecha (o izquierda) de \(a_2\). La tabla 6.3 ejemplifica la selección de dos muestras proporcionales al tamaño de las UPM cuya coordinación es negativa.

Tabla 6.3: Ejemplo de la selección de dos muestras secuenciales de Poisson coordinadas negativamente.
Unidad xi_P N_I xi_pps s_1 s_2
6 0.0455 198 0.0405 1 0
1 0.2875 173 0.2928 1 0
3 0.4089 184 0.3913 1 0
10 0.4566 179 0.4494 0 0
9 0.5514 195 0.4981 0 0
7 0.5281 155 0.6001 0 1
2 0.7883 162 0.8568 0 1
5 0.9404 190 0.8715 0 1
8 0.8924 166 0.9463 0 0
4 0.8831 159 0.9780 0 0

En Brasil, el IBGE utiliza el algorimo de Paretto (Rosén 1997) para la selección de muestras coordinadas en la PNADC (Costa 2007). Este algoritmo hace uso de los principios de la función de distribución de Paretto con parámetros \((1,1)\) y crea los siguientes números aleatorios permanentes:

\[ \xi_i^{par} = \frac{\xi_i^P/(1-\xi_i^P)}{\pi_i/(1-\pi_i)} \]

En donde \(\pi_i = n_I * p_i\) es la probabilidad de inclusión de la \(i\)-ésima UPM y deberá garatizarse que sea menor que uno. Por consiguiente, al ordenar el marco mediante los números \(\xi_i^{par}\) y seleccionar los primeros elementos, se obtendrá una muestra secuencial de Poisson. Como corresponde, es posible aplicar los mismos principios de la coordinación de muestras en estos algoritmos secuenciales. La tabla 6.4 ejemplifica la selección de dos muestras de Paretto de tamaño \(n_I = 3\), cuya coordinación es negativa.

Tabla 6.4: Ejemplo de la selección de dos muestras de Paretto coordinadas negativamente.
Unidad xi_P xi_P_par s_1 s_2
6 0.0455 0.0937 1 0
1 0.2875 0.9662 1 0
3 0.4089 1.5148 1 0
10 0.4566 1.9165 0 1
9 0.5514 2.4720 0 1
7 0.5281 3.1199 0 1
2 0.7883 9.7679 0 0
4 0.8831 20.3317 0 0
8 0.8924 21.0230 0 0
5 0.9404 32.9658 0 0

Referencias

Costa, Gustavo. 2007. «Coordenação de Amostras PPT em Pesquisas Repetidas, Utilizando o Método de Amostragem de Pareto». Tesis doctoral, IBGE-ENCE.
Grafstrom, Anton, y Alina Matei. 2015. «Coordination of Conditional Poisson Samples». Journal of Official Statistics 31 (4): 649-72. https://doi.org/10.1515/jos-2015-0039.
———. 2016. Estrategias de muestreo: diseño de encuestas y estimación de parámetros. Segunda edición. Ediciones de la U.
Ohlsson, E. 1995. «Coordination of Samples using Permanent Random Numbers». Chapter 9 in Business Survey Methods, 153-69.
Rosén, Bengt. 1997. «On sampling with probability proportional to size». Journal of Statistical Planning and Inference 62 (2): 159-91. https://doi.org/10.1016/S0378-3758(96)00186-3.