3 Planeación y diseño

Acá va la introducción

3.1 Planeación de la operación estadística

La planificación de la operación logística de una Encuesta Postcensal (PES) es una fase crítica que determina en gran medida la calidad final de la medición de la cobertura censal. Este proceso requiere, por un lado, un diseño robusto que considere la asignación adecuada de recursos, un muestreo cuidadoso y una ejecución operativa eficiente. Por otro lado, debe estar precedido por una definición clara y sin ambigüedades de los objetivos que persigue, lo cual facilita una organización coherente del proceso. En la medida de lo posible, la planificación de la PES debe estar sincronizada con la planificación del censo, iniciarse de manera temprana y contar con recursos suficientes asignados como parte integral de la operación censal (UN 2010; Hogan 2003).

El propósito central de la PES es estimar con precisión los errores de cobertura censal, mediante un diseño de muestreo independiente y la aplicación de técnicas como la estimación por sistema dual. No obstante, también permite la evaluación estadística de los resultados censales y abarcan también la generación de aprendizajes que contribuyan a mejorar procesos en futuros operativos. En particular, se busca:

  1. Medir la subcobertura y la sobrecobertura de personas y, en algunos casos, de hogares o viviendas, lo que permite calcular tanto el conteo neto como los componentes de error (enumeraciones correctas, enumeraciones erróneas, imputaciones y omisiones).

  2. Generar estimaciones confiables de subconteo o sobreconteo por áreas geográficas o subpoblaciones específicas, mediante post-estratificación o modelos de regresión logística.

  3. Proporcionar medidas de cobertura para distintos grupos demográficos que orienten conciliaciones con los resultados censales.

  4. Medir el nivel de concordancia en variables de contenido, como sexo, edad, estado civil, relación con la persona de referencia o jefe de hogar, contribuyendo así a evaluar la calidad de la información reportada.

  5. Evaluar la idoneidad de las unidades primarias de muestreo (UPM) como marcos para futuras encuestas de hogares.

  6. Identificar prácticas que requieren mejoras en futuros censos.

En consecuencia, la PES no solo aporta una medida del error de cobertura, sino que también constituye una herramienta clave para fortalecer el sistema estadístico nacional, apoyando a las Oficinas Nacionales de Estadística (ONE) en la actualización de marcos muestrales y en la retroalimentación metodológica y operativa.

Por su importancia, la PES requiere una asignación suficiente de recursos financieros y humanos: sensibilizadores, enumeradores, supervisores y coordinadores calificados; personal competente para el emparejamiento de información; analistas con formación estadística; y un sistema eficaz de control operativo y aseguramiento de calidad a lo largo de todo el proceso de recolección.

El tamaño de muestra depende de si se buscan únicamente estimaciones nacionales o también desagregaciones subnacionales. En el primer caso, una muestra más pequeña puede ser suficiente; sin embargo, si se desean resultados por múltiples dominios (área urbano/rural, regiones, provincias u otras unidades subregionales), se requiere un tamaño de muestra más grande, lo que inevitablemente incrementa los costos de la operación estadística (CEPAL 2023).

Al iniciar la planificación técnica, es fundamental definir los objetivos específicos a abordar. Estos objetivos deben traducirse en planes detallados, asignados a subgrupos técnicos de planificación responsables de cada componente de la PES, entre ellos:

  • Grupo temático, encargado del diseño del cuestionario.
  • Grupo de diseño y ejecución de la muestra.
  • Grupo analítico, encargado del emparejamiento y la estimación por sistema dual.
  • Grupo logístico.

Cada grupo debe elaborar su propio plan, siempre dentro de un marco de independencia metodológica respecto al censo, aunque coordinando aspectos comunes como la cartografía. Por ejemplo, aunque el marco muestral de la PES debe ser independiente del marco censal, en la mayoría de los países se utiliza la cartografía censal como referencia.

En este capítulo nos enfocaremos en tres aspectos clave de la planeación de la PES:

  1. Diseño del cuestionario.
  2. Diseño de la muestra.
  3. Operativo de recolección.

3.2 Diseño del cuestionario

El cuestionario del PES constituye un instrumento central, pues es el medio a través del cual la información se transfiere de los hogares a los analistas de la encuesta. Debe diseñarse tomando como referencia el cuestionario censal definitivo y, en particular, de acuerdo con el procedimiento de emparejamiento que se adoptará (véase la Sección 4.2). Su diseño es crucial, ya que traduce las necesidades de información en preguntas operativas y constituye la base de entrada para el procesamiento de datos (UN 2010; Baffour, King, and Valente 2013).

El cuestionario debe ser estructurado y claro, acompañado de instrucciones precisas para los enumeradores. Algunas características deseables son:

  • Pertinencia: Permitir la recolección de datos que satisfagan las necesidades de los usuarios.
  • Eficiencia: Facilitar la labor de recolección, procesamiento y tabulación, evitando información no esencial.
  • Claridad: Formular preguntas de fácil lectura y comprensión, con definiciones operativas precisas.
  • Calidad: Favorecer la generación de estimaciones confiables.

En este sentido, la prueba piloto del cuestionario resulta indispensable para su validación final.

Durante la recolección de la PES, el encuestador debe elaborar un listado independiente al censo, que incluya:

  • Personas que residen actualmente en el hogar.
  • Personas que residían allí el día del censo, aunque ya no vivan en el hogar.

La información mínima debe incluir nombre, apellidos, sexo, fecha de nacimiento, edad, parentesco con el jefe o jefa del hogar y, si es posible, número de identificación personal.

Las preguntas deben estar orientadas a determinar otros lugares donde la persona podría haber vivido o permanecido el día del censo buscando identificar si la persona se habría mudado o si estaba de forma temporal en esa otra dirección. Si es una persona alterna entre direcciones, se debe intentar establecer cuánto tiempo pasa en cada dirección y así determinar su residencia habitual, es decir, en dónde debería contarse en el censo. Asimismo, si la conclusión es que una persona se mudó de la dirección de la muestra, se debe intentar obtener su nueva dirección. En este sentido, las preguntas deben orientarse a:

  1. Verificar si las personas que residen en los hogares de la muestra fueron enumeradas en el censo.
  2. Identificar errores de enumeración (duplicaciones, omisiones, ubicación incorrecta).
  3. Determinar si las personas tienen direcciones alternas o se han trasladado desde la fecha del censo.

Las direcciones recopiladas durante la entrevista que son proporcionadas por el encuestado, pueden clasificarse como direcciones de inmigrante (in-movers) o direcciones alternas. Las direcciones de inmigrante se recopilan cuando alguien que actualmente vive en la dirección de la muestra había vivido en otro lugar el día del censo. Mientras que las direcciones alternas se dan cuando alguien vive en otro lugar por razones laborales, estudios, servicio militar, entre otras.

La encuesta debe diseñarse para levantar la mayor cantidad posible de direcciones alternas con el fin de identificar todos los lugares donde una persona pudo haber sido contada en el censo y determinar si fue contabilizada más de una vez. Es posible que el encuestado no pueda proporcionar la dirección completa, en esos casos se debe intentar obtener cualquier información de referencia próximos a la dirección, lo cual facilitará el emparejamiento entre la PES y el censo.

Es importante que cada persona sea asignada a un departamento y municipio de residencia en la PES y el día del censo. Esto permite identificar dónde debía haberse contado a la persona el día del censo, también se debe agregar una codificación para identificar si la persona se mudó. Se recomienda dejar una casilla de observaciones para que el encuestador agregue cualquier referencia que considere relevante para los revisores clericales durante el emparejamiento.

El proceso de emparejamiento es una de las etapas más desafiantes del proceso, y resulta vital en la aplicación de la Estimación por Sistema Dual. Este proceso debe estar diseñado para determinar si las personas de la PES fueron enumeradas en el censo, tuvieron errores de enumeración u omisiones. Por ejemplo, en el procedimiento C (véase Sección 4.2), que es uno de los más utilizados y el que aquí se sugiere, el cuestionario debe permitir clasificar a cada persona en una de las siguientes categorías

Código Estado
1 Permanente (non-mover)
2 Trasladado (salida/out-mover)
3 Trasladado (entrada/in-mover)
4 Fuera de alcance (out of scope)

El estado de cada persona se clasifica de acuerdo con las siguientes definiciones:

  • Permanente (Non-mover): Persona que residía en un hogar particular en la fecha del censo y que aún reside allí en la fecha del PES.
  • Trasladado (salida/Out-mover): Persona que residía en el hogar en la fecha del censo pero que ya no reside en el hogar en la fecha del PES.
  • Trasladado (entrada/In-mover): Persona que reside en el hogar en la fecha del PES pero que no residía allí en la fecha del censo.
  • Fuera de alcance (Out of scope): Persona que no pertenece a la población objetivo en la fecha del censo. Pueden ser nacidos después del censo, o alguien que vivía fuera del país en la fecha del censo.

La siguiente tabla resume los casos más comunes:

Caso: Persona que … Situación en Censo Situación en PES Clasificación
seguía viviendo en el hogar Estaba presente Sigue presente Non-mover
falleció después del censo Estaba en el hogar Ya no está (fallecido) Out-mover
nació después del censo No existía Está presente en el hogar Out of scope
migró o se mudó a otro hogar Estaba en el hogar Ya no reside en el hogar Out-mover
se mudó al hogar después del censo No estaba en el hogar Está en el hogar en PES In-mover
estaba de visita el día del censo Se enumeró en el censo No reside en PES Out of scope
vivía en el exterior en censo No estaba en el país Aparece en hogar en PES Out of scope
está duplicada en el censo Registrada más de una vez Reportada una sola vez en PES Error de enumeración

Como se ha señalado, la PES tiene como propósito fundamental evaluar la cobertura del censo. En este sentido, no solo el estado de la persona y su ubicación geográfica es relevante, sino también un conjunto más amplio de variables que permitan verificar con precisión si la persona registrada en la PES corresponde efectivamente a la misma persona registrada en el censo, lo cual resulta indispensable para garantizar la validez. en este sentido, el cuestionario debe incluir un conjunto de variables sociodemográficas repetidas del censo para verificar errores de contenido, tales como:

  • Nombres y apellidos.
  • Sexo.
  • Fecha de nacimiento y edad exacta.
  • Parentesco con el jefe del hogar.
  • Estado civil.
  • Nivel educativo.

En la mayoría de los casos, también resulta útil incorporar preguntas de sondeo para identificar a personas que un informante idóneo puede haber omitido involuntariamente del listado del hogar. Para evitar estas omisiones involuntarias (bebés, visitantes, personas ausentes temporalmente), se recomienda incluir preguntas de sondeo. Por ejemplo:

P01. Por favor, dígame los nombres de todas las personas que pasaron la noche el (fecha del PES) en este hogar.

Además, dígame los nombres de cualquier persona que no pasó la noche el (fecha del PES), pero que sí pasó la noche el (fecha del censo) en este hogar.”

En términos generales, se recomienda que el cuestionario básico de la PES incluya al menos los siguientes elementos:

  1. Nombres y apellidos de todas las personas que residían en el hogar la noche del censo, asegurando la inclusión de bebés, personas mayores y aquellas que, aunque ausentes temporalmente (por vacaciones, hospitalización u otras razones), forman parte del hogar.
  2. Relación de parentesco de cada persona con la jefa o el jefe del hogar.
  3. Datos demográficos básicos: fecha de nacimiento, edad y sexo de cada persona.
  4. Condición de residencia actual, verificando si cada persona continúa viviendo en el hogar. En caso contrario, se debe registrar su dirección actual.
  5. Personas adicionales que vivían en el hogar durante el censo pero que no fueron mencionadas inicialmente.
  6. Pertenencia étnica de las personas, esto debido a que algunos censos han presentado dificultades para capturar correctamente algunas comunidades, y tenerlo en la PES puede contribuir a la mejora a partir de los ajustes de cobertura.

3.3 El diseño de muestreo

Por lo general, el diseño de muestreo para una encuesta postcensal sigue una estructura compleja que contempla al menos dos procesos: el primero es la estratificación y el segundo es la selección de conglomerados. Estos dos procesos introducen un efecto de diseño que, por lo general, aumenta el error estándar de los estimadores debido a la alta correlación intra-clase de los conglomerados en los estratos:

  1. En el caso de la estratificación, este es un procedimiento que divide la población en grupos homogéneos (casi siempre supeditados a divisiones geográficas). Esta división pretende reducir la varianza de los estimadores, asegurando un tamaño de muestra óptimo para la representación de zonas o regiones.
  2. Las unidades primarias de muestreo (UPM) son pequeños conglomerados geográficos, como manzanas o sectores censales, que en la mayoría de casos se seleccionan mediante probabilidad proporcional al número de viviendas, hogares o personas. Por lo general, en las UPM seleccionadas, se realiza un barrido total de todas sus estructuras y en cada vivienda se enlista a cada una de las personas de cada una de las viviendas. Este muestreo se conoce como muestreo de conglomerados. En otras ocasiones, es posible hacer un submuestreo de viviendas en las UPM seleccionadas.

Siguiendo la notación de la litera consideremos un diseño estándar estratificado con selección de conglomerados en una sola etapa. La población se agrupa en \(M\) UPM y se asume que se selecciona una muestra aleatoria simple sin reemplazo de \(m\) UPM. Asumimos que la población de la encuesta se enumera completamente dentro de los conglomerados seleccionados. Además, se supone que la lista de conglomerados es completa. Cada miembro de la población pertenece a uno y solo un conglomerado, y no hay miembros de la población que no estén cubiertos por uno de los \(M\) conglomerados.

En algunas ocasiones, el diseño de muestreo de la encuesta contempla un formato de encuesta de hogares en el que la selección de las viviendas se realiza en dos etapas. Por lo general, en la segunda etapa se seleccionan viviendas ocupadas por hogares al momento de la recolección de datos. Sin embargo, esta selección de viviendas ocupadas durante el trabajo de campo introduce limitaciones críticas, como las siguientes:

  1. Limitación en la definición de la población de interés: la segunda etapa del muestreo (selección de viviendas ocupadas) inmediatamente restringe la población objetivo a las personas civiles no institucionalizadas, lo que genera sesgos en la medición de cobertura, puesto que se excluyen poblaciones no cubiertas como las personas en cárceles, hospitales, residencias de ancianos o bases militares (población institucionalizada). Todas estas personas quedan fuera del marco muestral, ya que estas viviendas colectivas no se incluyen en la selección de hogares tradicionales. Asimismo, los individuos en situación de calle, migrantes temporales o trabajadores itinerantes no tienen una “vivienda ocupada” fija durante el trabajo de campo (población móvil o sin techo).

  2. Desfase temporal entre el censo y la encuesta: si hay un intervalo prolongado (meses o años) entre el censo y la encuesta postcensal, se violan algunos supuestos clave. Supongamos que, durante el censo, una vivienda estaba ocupada, pero al momento de la encuesta está deshabitada (ej.: migración, desastres naturales). Esta vivienda tendrá probabilidad nula de ser seleccionada en la encuesta, a pesar de haber albergado a un hogar censado. Asimismo, las viviendas construidas después del censo podrían contener hogares no censados.

El diseño muestral de la operación estadística de la encuesta de cobertura debe ser probabilístico y estratificado por conglomerados. Para garantizar que sea probabilístico, se debe asegurar que todas las personas tengan una probabilidad conocida y mayor que cero de ser seleccionadas en la muestra de la PES.

Los estratos deben definirse con el objetivo de reducir la incertidumbre de las estimaciones y, al mismo tiempo, atender necesidades administrativas, como la entrega de información desagregada para algunos dominios geográficos específicos.

Dentro de cada estrato, las Unidades Primarias de Muestreo (UPM) se definen como segmentos cartográficos previamente establecidos en el marco del censo. Estos segmentos deben seleccionarse mediante un diseño de muestreo. Finalmente, en los segmentos seleccionados se debe levantar la información de todos los hogares y personas.

3.3.1 Marco de muestreo

Como en todo procedimiento de muestreo probabilístico, se requiere de un dispositivo que permita identificar y ubicar a todos y cada uno de las unidades pertenecientes a la población objetivo. Este dispositivo se conoce con el nombre de marco de muestreo.

Teniendo en cuenta que la metodología de Estimación por Sistema Dual se fundamenta en el supuesto de que la PES es una recolección independiente del censo. Por lo tanto, exige que la PES no esté influenciada por lo que ocurrió en el censo y debido a ello no se puede usar información auxiliar ni ningún resultado proveniente del censo.

En consecuencia, el marco de áreas (agregados cartográficos como segmentos censales, sectores censales o áreas de enumeración) que se utilice para la selección de las UPM debería ser el mismo que se utilizó para la planeación logística del censo. Lo anterior también implica que durante la recolección se deben seleccionar un equipo humano diferente al que participó en el censo.

3.3.2 Construcción de las UPM

La construcción de las Unidades Primarias de Muestreo (UPM) debe derivarse directamente de la definición establecida en el censo. Es fundamental que los segmentos cartográficos utilizados como UPM en la encuesta de postenumeración correspondan a los mismos bloques cartográficos definidos durante el censo, ya que esto asegura la coherencia espacial y administrativa entre ambos ejercicios. Tomar como referencia los mismos segmentos permite mantener la comparabilidad de los datos y facilita el control de cobertura de manera precisa.

Asimismo, el uso de los mismos bloques cartográficos es esencial para la indexación y el emparejamiento de los registros durante el proceso de análisis de la PES. Al contar con una correspondencia directa entre los segmentos del censo y los de la PES, se pueden identificar de manera eficiente los hogares y personas que fueron enumerados en ambas operaciones, garantizando así la validez de las estimaciones y la detección de posibles omisiones o duplicaciones en la información recolectada. Usar este enfoque contribuye a la calidad y confiabilidad de los resultados finales de la encuesta de cobertura.

3.3.3 Estratos

La estratificación en la encuesta de postenumeración se construye con base en dos objetivos principales.

El primero está relacionado con la eficiencia del diseño muestral, buscando asegurar una mayor precisión de las estimaciones. Para cumplir este objetivo, los estratos deben considerar áreas geográficas que puedan presentar diferentes niveles de cobertura. Por ejemplo, se pueden diferenciar áreas urbanas, centros poblados, zonas rurales dispersas o regiones con población étnica de difícil acceso, donde es más probable que las omisiones o errores de cobertura sean distintos respecto a otras áreas. Esta diferenciación permite diseñar la muestra de manera que se reduzca la incertidumbre de las estimaciones dentro de cada estrato, optimizando así la eficiencia del muestreo.

El segundo objetivo de la estratificación se vincula con la necesidad de obtener información desagregada para distintos dominios geográficos. En estos casos, se recomienda que dentro de cada estrato se aplique una subestratificación adicional, siguiendo los lineamientos previamente definidos, para garantizar que la muestra represente todos los subdominios de interés.

3.3.4 Selección

Con el marco de muestreo y la estratificación apropiada para las UPM, es necesario realizar el proceso de muestreo para la selección final de los hogares. Este proceso de selección debe inducir insesgamiento, además de ser eficiente. Esto quiere decir que la inclusión de las unidades en la muestra estará supeditada a un esquema probabilístico libre de cualquier sesgo. Además de esto, se necesita que este mecanismo genere la menor dispersión posible en el proceso inferencial posterior.

El procedimiento de muestreo le asigna una probabilidad de selección conocida a cada posible muestra. Al diseñar un muestreo probabilístico, el investigador es el encargado de asignar estas probabilidades, mediante la definición del diseño de muestreo (Särndal, Swensson, and Wretman 2003). Aunque esta asignación de probabilidades se realiza de manera teórica, el equipo técnico deberá establecer cuál es la mejor forma de selección, y sobre esta escoger el mejor algoritmo de muestreo. Luego de establecer este conjunto de probabilidades, una única muestra es escogida mediante un mecanismo aleatorio que siga a cabalidad esta configuración estocástica inducida por el diseño de muestreo.

Es fundamental que estas probabilidades sean distintas de cero, ya que de lo contrario no se podría garantizar una inferencia insesgada, al excluir segmentos cartográficos del país. Además, estas mismas probabilidades se utilizan para calcular los factores de expansión, que sostienen todo el proceso de estimación, así como para el cálculo de los errores de muestreo, asegurando la validez y precisión de las cifras derivadas de la encuesta.

Es importante diferenciar claramente entre el diseño de muestreo y el algoritmo de muestreo. El diseño de muestreo establece las probabilidad de selección tendrán las posibles muestras en el soporte de muestreo, definido como el conjunto de todas las posibles muestras. Por su parte, el algoritmo de muestreo se refiere al proceso de selección de una única muestra, respetando las probabilidades establecidas por el diseño.

En el caso de la PES, es fundamental definir ambos componentes de manera previa. Para ello, el equipo técnico debe documentar exhaustivamente cada etapa del muestreo, identificando las unidades de muestreo y estableciendo los correspondientes diseños para cada etapa. De igual manera, se debe explicar claramente qué algoritmos de selección se aplicarán en cada etapa, garantizando así transparencia en la selección de las unidades. De esta forma habrá total transparencia en la selección de las unidades y esto redunda en la obtención de cifras oficiales confiables y precisas.

Existen muchas formas de seleccionar una muestra y cada una de ellas induce una medida de probabilidad sobre los elementos que conforman la población de interés. En general, asociado a cada esquema particular de muestreo se define una única función que asocia a cada hogar \(k\) con una probabilidad de inclusión en la muestra \(s\), definida de la siguiente manera:

\[\pi_k = Pr (k \in s)\]

Si el diseño de muestreo es de tamaño fijo, estas probabilidades de inclusión de los hogares cumplirán con las siguientes propiedades

  1. \(\pi_k > 0\)
  2. \(\sum_U \pi_k = n\)

Observe que la primera propiedad garantiza que ningún hogar será excluido de la selección inicial. Si bien no todos los hogares serán seleccionados para pertenecer a la muestra \(s\), todos tendrán un chance de ser escogidos por el mecanismo de selección aleatorio. En segunda medida, el tamaño de la muestra de hogares estará inducido por la magnitud de las probabilidades de inclusión. Por esta razón, una encuesta con una tamaño de muestra grande asignará una mayor probabilidad de inclusión a todos los hogares, que una encuesta de tamaño de muestra más modesto.

3.3.5 Diseño de muestreo estándar

A continuación se describe de manera genérica cómo es un diseño de muestreo típico de una encuesta de cobertura. Por supuesto, en la práctica existen variantes que se pueden alejar un poco de esta generalización debido a las particularidades de cada país, aunque en general, mantienen la misma estructura.

Generalmente el muestreo es probabilístico estratificado de conglomerados:

  • Se realiza una estratificación por zona: urbano/rural, por región, departamento o estado.
  • De forma independiente, se seleccionan las unidades primarias de muestreo (UPM) definidas por segmentos cartográficos según el censo, siguiendo un diseño de muestreo proporcional al número de viviendas, hogares o personas del conglomerado.
  • Dentro de cada UPM, se debe levantar el recuento del número de viviendas y proceder a visitarlas a todas para levantar la información de todos los hogares y personas.

Debido a que puede existir resistencia a responder debido a que el censo se realizó hace poco tiempo, es importante considerar registros para el control de la cobertura, para ello se recomienda codificar las novedades o incidencias de acuerdo con los códigos de disposición de AAPOR (Public Opinion Research 2016), en la cual las unidades de observación se codifican como ER para los elegibles respondientes, ENR para los elegibles que no responden o que rechazan la encuesta, NEC al grupo de no elegibles conocidos y ED a los elegibles desconocidos.

3.3.6 Cálculo del tamaño de muestra

El tamaño de la muestra se debe calcular para lograr un nivel de precisión requerido con un nivel de confianza. De manera que, es necesario definir los diferentes tipos de error muestral. En principio, se define un intervalo de confianza para el parámetro \(\theta\), inducido por su estimador insesgado \(\hat{\theta}\) (que se supone con distribución normal de media \(\theta\) y varianza \(Var(\hat{\theta})\), como

\[ IC(1-\alpha)=\left[\hat{\theta}-z_{1-\alpha / 2}\sqrt{ Var(\hat{\theta})},\hat{\theta}+z_{1-\alpha / 2}\sqrt{Var(\hat{\theta})}\right] \]

donde \(z_{1-\alpha / 2}\) se refiere al cuantil \((1-\alpha / 2)\) de una variable aleatoria con distribución normal estándar. Cuando el diseño de muestreo es complejo, es necesario reemplazar el percentil de la distribución normal estándar por el percentil de una distribución \(t-student\) con \(N_I - H\) grados de libertad, suponiendo que hay \(N_I\) unidades primarias de muestreo y \(H\) estratos. En este orden de ideas, nótese que

\[ 1-\alpha=\sum_{Q_0 \supset s}p(s), \]

donde \(Q_0\) es el conjunto de todas las posible muestras cuyo intervalo de confianza contiene al parámetro \(\theta\). Desde la expresión del intervalo de confianza, se define el margen de error, como aquella cantidad que se suma y se resta al estimador insesgado. En este caso, se define como

\[ ME = z_{1-\alpha / 2}\sqrt{ Var(\hat{\theta})} \]

Desde esta expresión también es posible definir el error estándar, dado por

\[ EE = \sqrt{ Var(\hat{\theta})} \]

Las anteriores medidas sólo tienen en cuenta la precisión del estimador. Una medida que tiene en cuenta la precisión y el sesgo del estimador es el margen de error relativo, que se define como

\[ MER = z_{1-\alpha / 2}\frac{\sqrt{ Var(\hat{\theta})}}{E(\hat{\theta})} \]

De la misma manera, también se define el coeficiente de variación o error estándar relativo definido por

\[ CV = \frac{\sqrt{ Var(\hat{\theta})}}{E(\hat{\theta})} \]

El tamaño de muestra dependerá del tipo de error que se quiera minimizar. Por ejemplo, el tamaño de muestra requerido para minimizar el margen de error, no será el mismo que el que se necesitará para minimizar el coeficiente de variación.

para determinar el tamaño de la muestra se deben considerar los efectos de la estratificación, las etapas y la aglomeración de las unidades de muestreo. Una forma sencilla de incorporar este efecto de aglomeración en las expresiones clásicas del muestreo aleatorio simple, es la relación de las varianzas en el efecto de diseño:

\[ DEFF(\hat{\theta})=\frac{Var_p(\hat{\theta})}{Var_{MAS}(\hat{\theta})} \]

Esta cifra da cuenta del efecto de aglomeración causado por la utilización de un diseño de muestreo cualquiera \((p)\), frente a un diseño de muestreo aleatorio simple (MAS) en la inferencia de un parámetro de la población finita \(\theta\) (que puede ser un total, una proporción, una razón, un coeficiente de regresión, etc.). Por lo anterior, es posible escribir la varianza del estimador bajo el diseño de muestreo complejo como

\[\begin{align} Var_p(\hat{\theta}) & = DEFF(\hat{\theta}) \ Var_{MAS}(\hat{\theta}) \\ & = DEFF(\hat{\theta}) \ \frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_U} \end{align}\]

Por lo tanto, si al implementar un muestreo aleatorio simple el tamaño de muestra \(n_0\) es suficiente para conseguir la precisión deseada, entonces el valor del tamaño de muestra que tendrá en cuenta el efecto de aglomeración para un diseño complejo estará cercano a \(n \approx n_0 \times DEFF\). Por ende, un efecto de diseño DEFF = 2.0 implicaría que se deberían seleccionar casi el doble de unidades para lograr la misma confiabilidad que la producida por una muestra aleatoria simple.

En particular, para el caso de una proporción, la calidad del estimador se puede medir en términos de la amplitud del intervalo de confianza de al menos \((1-\alpha) \times 100\%\); esto es, la distancia entre el estimador y el parámetro no debería superar un margen de error previamente establecido (\(ME\)). Así:

\[ 1-\alpha \geq \Pr\left(|\hat{P}-P|<ME\right) \]

Por ejemplo, el estimador de Horvitz-Thompson de la proporción \(\hat{P}\) es insesgado para \(P\) y su distribución asintótica es gausiana con varianza dada por

\[ Var\left(\hat{P}\right)=DEFF\frac{1}{n}(1-\frac{n}{N})P(1-P) \]

Al despejar el tamaño muestral \(n\) de la anterior expresión, se tiene que

\[ n\geq\frac{P(1-P)}{\frac{ME^2}{DEFF \ z_{1-\alpha/2}^2}+\frac{P(1-P)}{N}} \]

De la misma manera, si el interés recae en la estimación de un promedio \(\bar{y}_U\), el tamaño de muestra necesario para que la amplitud relativa del intervalo de confianza no supre un margen de error relativo previamente establecido (\(MER\)) es de

\[ n \geq \dfrac{S^2_{y_U}DEFF}{\dfrac{MER^2 \bar{y}_U^2}{z_{1-\alpha/2}^2}+\dfrac{S^2_{y_U}DEFF}{N}} \]

Por consiguiente, se evidencia que valores grandes del efecto de diseño inducirán un mayor tamaño de muestra. Claramente el incremento no es lineal, más aún, el tamaño de muestre se ve más afectado en la medida en que el \(DEFF\) sea más grande.

En el caso de la PES, el interés se centra en tener una muuestra suficiente de hogares. Para ello, es necesario establecer

  • El número promedio de hogares. El número promedio de hogares que se espera encuestar en cada una de las UPM está dado por \(\bar{n}_{II}\), en donde \(n_{II}\) es el número de hogares en la muestra de la segunda etapa \(s_{II}\).

  • Calcular el efecto de diseño. Es necesario definir (o calcular con encuestas o censos anteriores) la correlación intraclase de la variable de interés con el agrupamiento por UPM \(\rho_y\). Luego de esto, se debe calcular el efecto de diseño \(DEFF\) como función de \(\rho_y\) y de \(\bar{n}_{II}\); esto es \(DEFF \approx 1 + (\bar{n}_{II} - 1)\rho_y\).

  • Tamaño de muestra mínimo de hogares. Partiendo de las expresiones de tamaño de muestra generales para muestreos complejos y teniendo en cuenta que la población de interés son los hogares, entonces el tamaño de muestra necesario para alcanzar un margen de error relativo máximo de \(MER\) % es de

\[ n_{II} \geq \dfrac{S^2_{y}DEFF}{\dfrac{MER^2 \bar{y}^2}{z_{1-\alpha/2}^2}+\dfrac{S^2_{y_U}DEFF}{N_{II}}} \]

La expresión apropiada para calcular el tamaño de muestra para una proporción estará dada por \[ n_{II} \geq \dfrac{P\ (1-P)\ DEFF}{\dfrac{MER^2P^2}{z_{1-\alpha/2}^2}+\dfrac{P\ (1-P) \ DEFF}{N_{II}}} \]

  • Cálculo del número de UPM. Los hogares se observan a partir de las UPM. En este paso final es necesario calcular el número de UPM que deben ser seleccionadas en el muestreo a partir de la relación \[ n_{I} = \frac{n_{II}}{\bar{n}_{II}} \]

3.4 Operativo de recolección

La independencia entre la PES y el censo es un requisito fundamental para la aplicación del sistema dual de estimación. En este sentido, la validez de las estimaciones de la PES depende directamente de la suposición de independencia entre ambas operaciones. Por lo tanto, se deben realizar todos los esfuerzos posibles para mantener esta separación.

Como se ha mencionado en los diferentes capítulos, el modelo basado en el DSE requiere el supuesto de que las probabilidades de captura en los dos sistemas sean independientes para todos los individuos (Wolter 1986). Este supuesto implica dos tipos de independencia: (1) independencia causal y (2) independencia heterogénea.

La falla de alguno de los supuestos de independencia, produce un sesgo de correlación. (Griffin 2000) ofrece detalles sobre el impacto de la violación de este supuesto. Generalmente, el sesgo de correlación tiene un efecto a la baja en las estimaciones por sistemas duales, ya que suele significar que las personas omitidas en el censo también tienen mayor probabilidad de ser omitidas en la PES.

El supuesto de independencia causal establece que la inclusión en el censo es independiente de la inclusión en la PES (Wolter 1986). El supuesto de independencia heterogénea plantea que la covarianza entre la probabilidad de ser incluido en el censo y la probabilidad de ser incluido en la PES es igual a cero. Una condición suficiente para la independencia heterogénea es la homogeneidad, esto es, que las probabilidades de inclusión en el censo o en la PES sean iguales para todas las personas (Mulry and Spencer 1991).

Los supuestos de independencia pueden fallar ya sea por dependencia causal entre la enumeración censal y la PES, o por heterogeneidad en las probabilidades de captura. La dependencia causal ocurre cuando el hecho de que un individuo sea incluido o excluido de un sistema afecta su probabilidad de inclusión en el otro. Una forma de mitigar la dependencia causal es garantizar la independencia operativa entre la PES y el censo. Es decir, asegurar que las operaciones de recolección de datos de la PES y del censo sean independientes entre sí, por ejemplo:

  • Asignando al personal de la PES a áreas en las que no trabajaron durante el censo.
  • Realizando las entrevistas de la PES una vez finalizadas las operaciones censales en un área.
  • Restringiendo el acceso del personal del censo a la información sobre la muestra de la PES.
  • Restringiendo el acceso del personal de la PES a los resultados del censo durante la recolección de datos.

Esto implica asignar la responsabilidad técnica de la PES a una unidad independiente del censo, la cual debería dedicar todo su tiempo a la planificación e implementación de la encuesta postcensal. Para conocer las acciones prácticas recomendadas que permiten garantizar dicha independencia entre el censo y la PES. Para ello, es recomendable contar con una unidad específicamente designada para la PES, dirigida por un(a) director(a) o gerente encargado(a) de orientar todos los aspectos de esta operación estadística.

El director debería dedicar toda su atención a las actividades de la PES y no asumir responsabilidades relacionadas con el censo. De igual forma, el personal asignado a la unidad de evaluación debe concentrarse exclusivamente en la PES, sin tener funciones operativas vinculadas al censo. Asimismo, se recomienda que la planificación de la capacitación del personal se realice desde las primeras etapas del proceso, asegurando la preparación oportuna y adecuada de quienes participarán en la operación.

El cronograma de la investigación es un aspecto clave, donde se debe detallar las actividades mediante cronogramas realistas para cada fase del proceso, como capacitación, prueba piloto, así como la fecha de inicio y finalización del trabajo de campo de la PES. Además, la planificación debe contemplar diseños alternativos, ya que puede ser necesario modificar algunos parámetros del diseño inicial. Por ejemplo, si se planifica utilizar el procedimiento C en la recolección de datos, también puede resultar necesario prever opciones alternativas como los procedimientos A o B.

Es muy recomendable realizar una prueba piloto de todos los procedimientos de la PES. Esta prueba debe ser un ensayo general de la PES, donde se realizan todas las actividades, desde la capacitación, recolección y emparejamiento, esta muestra no es probabilística y puede llevarse a cabo en algunas áreas seleccionadas con el objetivo de evaluar la adecuación tanto del plan general como de la organización de la PES.

El proceso de emparejamiento de registros entre la PES y el censo constituye uno de los elementos centrales para evaluar la cobertura. No obstante, se trata de una de las tareas más complejas y desafiantes dentro de la PES, y que su correcta ejecución resulta indispensable para garantizar la utilidad y validez de los resultados.

En este sentido, los resultados obtenidos en el piloto de la PES son insumos fundamentales para planificar adecuadamente las operaciones de emparejamiento. Dichos resultados permiten establecer las reglas de emparejamiento, los procedimientos de reconciliación y el flujo de trabajo de documentos entre la PES y el censo.

Referencias

Baffour, Bernard, Thomas King, and Paolo Valente. 2013. “The Modern Census: Evolution, Examples and Evaluation.” International Statistical Review 81 (3): 407–25.
CEPAL. 2023. Diseño y Análisis Estadístico de Las Encuestas de Hogares de América Latina. Metodologías de La CEPAL.
Griffin, Robert. 2000. “Accuracy and Coverage Evaluation Survey: Definition and Explanation of Correlation and Related Heterogeneity Bias.” Q-35. DSSD Census 2000 Procedures and Operations Memorandum Series. U.S. Census Bureau.
Hogan, Howard. 2003. “The Accuracy and Coverage Evaluation: Theory and Design.” Survey Methodology 29 (2): 129–38. https://www150.statcan.gc.ca/n1/en/catalogue/12-001-X20030026444.
Mulry, Mary H, and Bruce D Spencer. 1991. “Total Error in PES Estimates of Population.” Journal of the American Statistical Association 86 (416): 839–55.
Public Opinion Research, American Association for. 2016. “Standard Definitions: Final Dispositions of Case Codes and Outcome Rates for Surveys.” Encyclopedia of Survey Research Methods.
Särndal, Carl-Erik, Bengt Swensson, and Jan Wretman. 2003. Model Assisted Survey Sampling. Springer Science; Business Media.
UN. 2010. Post Enumeration Surveys: Operational Guidelines. 2010 World Population and Housing Census Programme. https://unstats.un.org/unsd/demographic/standmeth/handbooks/manual_pesen.pdf.
Wolter, Kirk M. 1986. “Some Coverage Error Models for Census Data.” Journal of the American Statistical Association 81 (394): 338–46. https://doi.org/10.2307/2289222.