20.2 El impacto de los rediseños

Como los rediseños de las encuestas son inevitables, es muy recomendable definir de antemano los cambios que se surtirán y planear un experimento controlado a lo largo de un periodo suficiente de tiempo (por ejemplo, un año para eventos con estacionalidad como las estadísticas del trabajo) en donde la operación estadística transcurra en paralelo con dos acercamientos: el regular (sin cambios) y el nuevo (con los cambios del rediseño). Esta opción implica que la ONE debe tener a su disponibilidad la suficiente cantidad de recursos presupuestales, logísticos y humanos durante el tiempo en el cual transcurran ambos procesos. Por lo anterior, no todas las ONE de la región podrán asumir esta carga y se vuelve una opción inviable. Sin embargo, las autoridades de las ONE deberían realizar todos los esfuerzos posibles para conseguir los recursos suficientes y garantizar que se pueda medir el impacto de los cambios propuestos.

Con base en lo anteriomente mencionado, es necesario tener en cuenta que sin este tipo de experimentos paralelos, será muy difícil medir el verdadero cambio, identificar la fuente de la discontinuidad en la serie y corregir el sesgo generado. Tal como lo afirma Imbens y Rubin (2015), la aleatorización es la única forma de conseguir que no existan sesgos de selección en los experimentos controlados y es el único supuesto científicamente aceptado para medir este tipo de efectos. Con esta perspectiva en mente, los experimentos controlados deberán seleccionar aleatoriamente las UPM que participarían en ambas recolecciones. Esto no supone una carga adicional para las ONE, garantes de la aleatorización en las encuestas de hogares.

Brakel, Smith, y Compton (2008) menciona que hay varias posibilidades para llevar a cabo este tipo de experimentos paralelos; por una parte es posible tener dos operaciones estadísticas en campo con el mismo tamaño de muestra, o que la nueva operación tenga un tamaño de muestra menor e inclusive esté restringida a alguna subpoblación de interés. En cualquier caso, son la forma correcta para evitar efectos de confusión. De lo contrario, incluso ante cambios nulos, no se podrá discernir si esto es el resultado de la coyuntura de interés, o del rediseño de la encuesta. La figura 20.1 muestra un ejemplo simulado del resultado esperado de un experimento paralelo. La línea negra representa la serie regular, la linea azul representa la nueva serie con los cambios del rediseño y la distancia entre ambas, representa el impacto del rediseño en cada punto del tiempo.

Series de tiempo para el rediseño de una encuesta. La línea negra representa la serie regular; la línea azul representa la serie nueva. Fuente: elaboración propia.

Figura 20.1: Series de tiempo para el rediseño de una encuesta. La línea negra representa la serie regular; la línea azul representa la serie nueva. Fuente: elaboración propia.

Sin embargo, en algunos casos se hace imposible realizar dos levantamientos paralelos. Un claro ejemplo de este escenario lo tenemos en la pandemia por COVID-19, su efecto en las condiciones socioeconómicas de los hogares y su efecto en el modo de recolección de las encuestas. Como lo afirma CEPAL (2020a), desde la emergencia sanitaria derivada de la pandemia, las oficinas nacionales de estadística (ONE) tuvieron que interrumpir abruptamente la recopilación de información primaria como parte de muchas de sus operaciones estadísticas, incluidas las encuestas de hogares. A pesar de esto, las ONE pudieron seguir con sus levantamientos migrando de un modo de recolección presencial a telefónico. Este rediseño repentino (cambio en la metodología de recolección) fue necesario para que se siguieran produciendo cifras de empleo y pobreza, indicadores particularmente importantes en el contexto de la pandemia, dado el profundo impacto que las mismas restricciones de movimiento y cuarentenas tuvieron en la condición de ocupación de las personas de la región y, por ende, en la afectación de sus ingresos. Nótese que en este caso, no fue posible que las ONE pudiesen realizar experimentos paralelos.

CEPAL (2020a) afirma que la pandemia obligó a que los países cambiaran varios aspectos en la metodología del levantamiento y análisis de la información, que pueden ser resumidos a continuación:

Cambió el modo de levantamiento de presencial a telefónico (o mixto, en algunos casos), así como las definiciones de la estructura de elegibilidad de las viviendas seleccionadas y sus correspondientes códigos de disposición.
Cambió el esquema de supervisión de los encuestadores y, en algunos casos, se suprimieron las actualizaciones cartográficas del número de hogares particulares en las unidades primarias de muestreo seleccionadas.
Se introdujo un nuevo esquema de ajuste de factores de expansión, buscando eliminar el sesgo de cobertura (no todos los hogares en los levantamientos anteriores contaron con números telefónicos de contacto) y de ausencia de respuesta (algunos hogares contactados telefónicamente no contestaron el cuestionario).
Se revisitaron los esquemas de calibración de los factores de expansión y en aras de la flexibilidad de la metodología de estimación se restringió el número de restricciones de calibración.

En algunos casos especiales, ante la imposibilidad de ejecutar dos encuestas paralelas, es posible obtener dos series paralelas. Por ejemplo, suponga un cambio en la forma de medición de las estadísticas del mercado de trabajo en un país; en particular, la adopción del estándar CIET 19 (ILO 2013). En algunos países es posible adoptar este estándar mediante la adición de nuevas preguntas al cuestionario original basado en la CIET 13 (ILO 1982). Otro caso especial puede deberse a la actualización de las proyecciones de población y los totales de control en los estimadores de calibración. Dado que el cambio solo afecta los procesos computacionales, es posible tener dos series paralelas, sin necesidad de tener dos levantamientos paralelos.

Ya sea que se tenga la posibilidad de contar con dos series en paralelo o no, existirán diferentes métodos que permitirán establecer si existe o no un impacto significativo debido a un cambio en la encuesta. En general, es posible enlistar las siguientes posibilidades: 1. Cuando se tienen las dos series en paralelo es posible cuantificar el impacto a través de estudios de causalidad basado en modelos econométricos. 2. Cuando solo se cuenta con una serie es posible acercarse al efecto del cambio utilizando modelos de series temporales en los que se involucran parámetros que indiquen a partir de qué momento se inició el cambio y su efecto en la serie (análisis de intervenciones).

En ambos casos, es necesario primero realizar este tipo de análisis para cuantificar el efecto del cambio. Luego, si el efecto resulta ser estadísticamente significativo, es necesario realizar el empalme de las series de tiempo que proporcione una serie ajustada comparable con ambas series: la regular y la nueva. Esta se conoce como la serie empalmada.

Por ejemplo, para el caso en el que el indicador de interés sea un total, Gbur y Alexander (1984) propone la utilización de un modelo lineal para determinar los efectos del rediseño. Este modelo puede escribirse de la siguiente manera:

\[ \hat \theta_{tdg} = \hat N_{tdg} \ \theta_{td} + \hat N_{tdg} \ \beta_{t} + \varepsilon_{tdg} \]

En donde \(\hat \theta_{tdg} = \sum_{k \in s_t} w_{ktg} \ y_{ktg}\) representa la estimación del indicador de interés en el tiempo \(t\) para el dominio \(d\). El subscrito \(g = 1, 2\), solo toma dos valores e indica si la variable de interés fue observada bajo las condiciones del rediseño o no (tratamiento/control). Además, \(\hat N_{tdg} = \sum_{k \in s_t} w_{ktg}\) es la suma de los factores de expansión en el tiempo \(t\), del dominio \(d\) en el tratamiento \(g\). Este modelo relaciona el estimador directo \(\hat \theta_{tdg}\) con el indicador verdadero \(\theta_{tdg}\) y el efecto del rediseño en el tiempo \(y\), denotado por \(\beta_{t}\). Por supuesto, \(\varepsilon_{tdg}\) denota los errores aleatorios con vector de medias nulo y matriz de varianzas \(\boldsymbol V\), cuyas entradas (varianzas y covarianzas) son estimadas a partir de los principios de la estimación directa. Nótese que se supone independencia en la selección de los hogares o personas en cada grupo del tratamiento.

Evidentemente si \(\beta_{t}\) es estadísticamente igual de cero, entonces se afirma que no existe un efecto del rediseño en la serie regular, por ende se garantiza la comparabilidad entre las estimaciones de la serie regular y la serie nueva. Sin emabargo, en caso contrario, es necesario realizar un proceso de empalme de series como los que se especifican en la siguiente sección.

Referencias

Brakel, Jan van den, Paul Smith, y Simon Compton. 2008. «Quality procedures for survey transitions - experiments, time series and discontinuities». Survey Research Methods 2 (3): 123-41.

———. 2020a. Continuidad del levantamiento de las encuestas de hogares tras la coyuntura de la enfermedad por coronavirus (COVID-19). Informes COVID-19 de la CEPAL. United Nations.

Gbur, Edward, y Charles Alexander. 1984. «A Linear Model Approach to the Estimation of Survey Redesign Effects». En.

ILO. 1982. 13 CIET - Resolución sobre estadísticas de la población económicamente activa, del empleo, del desempleo y del subempleo. Geneve. https://www.ilo.org/global/statistics-and-databases/standards-and-guidelines/resolutions-adopted-by-international-conferences-of-labour-statisticians/WCMS_087483/lang--es/index.htm.

———. 2013. 19 CIET - Resolución sobre las estadísticas del trabajo, la ocupación y la subutilización de la fuerza de trabajo. Geneve. http://www.ilo.org/wcmsp5/groups/public/---dgreports/---stat/documents/normativeinstrument/wcms_234036.pdf.

Imbens, G. W., y D. B. Rubin. 2015. Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction. Vol. 84. Cambridge University Press.