16.3 Agregación de encuestas con diferentes tamaños de muestra

En algunos casos, el tamaño de las encuestas puede variar significativamente entre dos meses consecutivos. La pandemia por COVID-19 mostró cómo esta clase de eventos adversos puede afectar gravemente el tamaño de muestra de los levantamientos regulares. Por ejemplo, considere el siguiente esquema trimestral:

Panel / Mes M1 M2 M3
Panel P1 P2 P3
Viviendas 5000 4500 2500
Panel P4 P5 P6
Viviendas 5500 5100 3000

En este caso, habiendo evaluado, analizado y ejecutado exhaustivamente los ajustes al factor de expansión, el principio detrás de esta agregación trimestral es intuitivo y simple: cada elemento dentro de la base de datos agregada se representa a sí mismo y a una porción de los habitantes del país en diferentes periodos de tiempo. Teniendo en cuenta lo anterior, es necesario notar que en el primer mes los paneles que se utilizan para producir las cifras oficiales son únicamente el P1 y el P4. De la misma manera, en el segundo mes se utilizan únicamente el panel P2 y el P5. Suponga también que las cifras oficiales en estos dos primeros meses son representativas de más desagregaciones que las del tercer, en donde participan los paneles P3 y P6, pero con un decremento sustancial en la muestra.

Como se puede notar, esta tabla contiene varios elementos que hay que tratar con precisión. En particular, el hecho de que la encuesta tenga levantamientos mensuales en todos los dominios de interés, no implica que mensualmente se tiene el mismo nivel de representatividad que en el trimestre. De hecho, como se mencionó anteriormente, dada la baja incidencia de entrevistas en el último mes, es muy factible que no exista el mismo nivel de representatividad comparado con los dos primeros meses. Las anteriores características implican que el tratamiento de los factores de expansión iniciales debe hacerse de forma diferencial.

Heeringa, West, y Berglund (2017) afirman que para evitar el sesgo inducido por tamaños de muestra pequeños, como el que evidentemente se tiene en el tercer mes del ejemplo, es posible ajustar los pesos de muestreo. En particular, cuando los levantamientos tienen este tipo de diferenciación en los tamaños de muestra, se sugiere utilizar la siguiente expresión para normalizar los pesos de muestreo:

\[ d_{kth}^{+}=\delta_{th} \times d_{kth} \]

En donde \(d_{kth}\) hace referencia al peso de muestreo del individuo \(k\) del estrato \(h\) en el mes \(t\) \((t=1, 2, 3)\) y \(\delta_{th}\) es un factor de ajuste, dependiente del tamaño de muestra, que representa el porcentaje de individuos observados en el mes \(t\) para el estrato \(h\). Este factor, propuesto por Kish (1999, 131) en el contexto de acumulación de muestras, está dado por la siguiente expresión

\[ \delta_{th} = \frac{n_{th}}{\sum_{t = 1} ^3 n_{th}} \]

En general, \(h\) podría ser el estrato de muestreo, o de manera más amplia el dominio de representatividad. Utilizando esta metodología los factores trimestrales tendrían las siguientes tres propiedades bastante favorables en un sistema de ponderación agregado.

  1. Definen una combinación lineal convexa.
  2. Mantienen la consistencia con los tamaños por estrato o dominio.
  3. Su aporte es proporcional al tamaño de muestra mensual.
  4. Se pueden expresar como un promedio equivalente a través de los estratos o dominios.

La primera propiedad se tiene puesto que \(\delta_{th} > 0 \ \forall t, \forall h\) y además \(\sum_{t=1}^3 \delta_{th} = 1\). La segunda propiedad se verifica dado que, asumiendo que \(s_{h}\) es la muestra del estrato \(h\) a través de todos los meses, entonces

\[ \sum_{t=1}^3\sum_{k\in s_{h}} d_{kth}^{+} =\sum_{t=1}^3\sum_{k\in s_h}\delta_{th}\ d_{kth} =\sum_{t=1}^3\delta_{th}\sum_{k\in s_{th}}\ d_{kth} =\sum_{t=1}^3\delta_{th}\hat{N}_h^t \cong \sum_{t=1}^3\delta_{th}\hat{N}_h = \hat{N}_h \]

La tercera propiedad se verifica puesto que la suma de los factores de expansión trimestrales restringida a un mes y un dominio particular está ponderada por el factor de ajuste \(\delta\), como se demuestra a continuación:

\[ \sum_{k\in s_{th}} d_{kth}^{+}=\sum_{k\in s_{th}}\delta_{th}\ d_{kth} =\delta_{th}\sum_{k\in s_{th}}\ d_{kth} =\delta_{th}\hat{N}_h^t \]

La última propiedad se puede comprobar en la encuesta, verificando que el aporte de los factores trimestrales sea proporcional al tamaño de muestra en cada dominio y en cada mes. Por último, la media de los factores de expansión es casi invariante con respecto a los meses, restringidos a un dominio específico. En efecto, note que:

\[ \frac{\sum_{k\in s_{th}} d_{kth}^{+}}{n_{h}} =\frac{\sum_{k\in s_{th}} \delta_{th} d_{kth}}{n_{h}} =\frac{\sum_{k\in s_{th}} d_{kth}}{\sum_h n_h} =\frac{\hat{N}_{th}}{\sum_h n_h} \cong \frac{\hat{N}_{h}}{\sum_h n_h} \]

Este comportamiento se observaría en la agregación, verificando que, sin importar el mes, la media de los factores trimestrales sea similar para cada dominio de interés. Las anteriores cuatro propiedades hacen que se cree un mejor sistema de ponderación agregado puesto que cada individuo en un dominio de interés tendrá un mismo factor trimestral similar, lo que le dará fuerza al mes que mayor tamaño de muestra tenga. Por lo anterior, para las cinco ciudades principales, es de esperar que la agregación induzca estimadores que colinden con los valores promedio entre los estimadores puntuales de los tres meses considerados.

La agregación anual consistiría en la extensión de esta metodología considerando un periodo más extenso de doce meses. En particular, se sugiere utilizar la siguiente expresión para normalizar los pesos de muestreo:

\[ d_{kth}^{+}=\delta_{th}* d_{kth} \]

En donde \(d_{kth}\) hace referencia al peso de muestreo del individuo \(k\) del estrato \(h\) en el mes \(t\) \((t=1, \ldots, 12)\) y \(\delta_{th}\) representa el porcentaje de individuos observados en el mes \(t\) para el estrato \(h\), dado por

\[ \delta_{th} = \frac{n_{th}}{\sum_{t = 1} ^{12} n_{th}} \]

Referencias

———. 2017. Applied survey data analysis. Chapman y Hall CRC statistics en the social y behavioral sciences series. CRC Press.
———. 1999. «Cumulating/combining population surveys». Survey Methodology 25 (2): 129-38.