1.2 Condiciones y supuestos

El modelo del error de cobertura descansa bajo un número de supuestos que son imprescindibles a la hora de utilizar una encuesta de postenumeración como instrumento fiable para la medición del error de cobertura en un censo. A continuación se realiza un listado exhaustivo de ellos.

1.2.1 Estabilidad poblacional

Se supone que la población \(U\) es cerrada y de tamaño fijo \(N\). En la práctica, esto implica que:

El período de referencia del censo está bien definido; es decir que el censo se lleva a cabo en un intervalo de tiempo específico y claramente establecido. Este período es crucial para garantizar que todos los datos recolectados se refieran a la misma fecha o intervalo de tiempo, evitando así inconsistencias y errores en la estimación de la población.
No existen incorporaciones durante el período de referencia; es decir que se asume que no ocurren nacimientos ni inmigraciones. Esto significa que no se agregan nuevos individuos a la población censada.
No existen pérdidas; es decir que se asume que no ocurren defunciones ni emigraciones durante el período de referencia. Esto asegura que no se restan individuos de la población censada.

1.2.2 Estructura multinomial

El evento conjunto de que un individuo esté o no esté en el censo y esté o no en la encuesta se puede modelar correctamente usando una distribución multinomial con los siguientes parámetros:

\[ \begin{array}{c|cc|c} & \text{En la encuesta} & \text{Fuera de la encuesta} & \text{Total} \\ \hline \text{En el censo} & p_{11} & p_{12} & p_{1+} \\ \text{Fuera del censo} & p_{21} & p_{22} & p_{2+} \\ \hline \text{Total} & p_{+1} & p_{+2} & 1 \end{array} \]

En donde:

\(p_{11}\) denota la probabilidad de que un individuo sea encontrado en el censo y en la encuesta.
\(p_{12}\) denota la probabilidad de que un individuo sea encontrado en el censo, pero no en la encuesta.
\(p_{21}\) denota la probabilidad de que un individuo no sea encontrado en el censo, pero sí en la encuesta.
\(p_{22}\) denota la probabilidad de que un individuo no sea encontrado ni en el censo, ni en la encuesta.

Asimismo, en términos de las probabilidades marginales, se definen las siguientes cantidades:

\(p_{1+}\) es la probabilidad de que un individuo sea correctamente encontrado en el censo.
\(p_{+1}\) es la probabilidad de que un individuo sea correctamente encontrado en la encuesta.

Esto quiere decir que el individuo tiene chance de ser clasificado en cualquiera de los cuatro estados definidos por las entradas de la tabla anterior; pero que al momento de la recolección de los datos, el individuo sólo puede pertenecer a uno y solo uno de estos estados.

1.2.3 Independencia autónoma

El censo y la encuesta se generan como resultado de \(N\) ensayos mutuamente independientes. Cada ensayo representa a un individuo de la población real \(U\). A partir de la recolección de los datos, se obtiene la siguiente clasificación:

\[ \begin{array}{c|cc|c} & \text{En la encuesta} & \text{Fuera de la encuesta} & \text{Total} \\ \hline \text{En el censo} & N_{11} & N_{12} & N_{1+} \\ \text{Fuera del censo} & N_{21} & N_{22} & N_{2+} \\ \hline \text{Total} & N_{+1} & N_{+2} & N_{++} = N \end{array} \]

Note que \(N_{ab} = \sum_{k \in U} x_{kab}\) y \(x_{kab}\) es una variable indicadora que señala si el individuo \(k\) pertenece a la celda \((a, b)\) de la tabla \((a, b = 1,2,+)\). Bajo este esquema inicial, se tiene que:

El conteo del censo \(N_{1+}\) se considera observable.
Los valores \(N_{11}\), \(N_{12}\) y \(N_{21}\) se consideran observables con base en los datos de la encuesta y el emparejamiento con el censo.
Los valores \(N_{22}\), y el tamaño de la población de interés \(N = N_{++}\), se consideran desconocidos y deben estimarse con base en el modelo.
Bajo este modelo, el conteo del censo \(N_{1+}\) define una variable aleatoria con media \(E(N_{1+}) = Np_{1+}\) y varianza \(V(N_{1+}) = Np_{1+}(1 - p_{1+})\).

1.2.4 Independencia causal

Se supone que el evento de ser incluido en el censo es independiente del evento de ser incluido en la encuesta. Como resultado de este supuesto, la razón de productos cruzados de probabilidades, conocida comúnmente como la Razón de Odds, satisface la siguiente relación:

\[ \frac{p_{11} \cdot p_{22}}{p_{12} \cdot p_{21}} = 1 \]

El resultado anterior se tiene, puesto que la probabilidad conjunta de un individuo en una celda específica de la tabla de contingencia se factoriza como:

\[ p_{11} = P(\text{individuo está en el censo y en la encuesta}) = p_{1+} \cdot p_{+1} \]

Similarmente, se tiene que

\[ p_{12} = p_{1+} \cdot (1 - p_{+1}) \] \[ p_{21} = (1 - p_{i1+})\cdot p_{i+1} p \]

\[ p_{22} = (1 - p_{i1+}) \cdot (1 - p_{i+1}) \] Sustituyendo adecuadamente en la razón de productos cruzados, entonces se tiene que

\[ \frac{p_{11} p_{22}}{p_{12} p_{21}} = \frac{p_{1+} p_{+1} (1 - p_{1+}) (1 - p_{+1})} {p_{1+} (1 - p_{+1}) (1 - p_{1+}) p_{+1}} = 1 \]

La dependencia causal, como señala el Bureau (2022), es un fenómeno que ocurre cuando la inclusión o exclusión de un individuo en el censo influye en su probabilidad de ser incluido en la encuesta. Este tipo de dependencia puede generar sesgos en los datos y afectar la calidad de las estimaciones estadísticas, lo que a su vez puede comprometer la validez de las conclusiones derivadas de estos estudios. Por ello, es fundamental implementar estrategias que mitiguen este riesgo y aseguren la independencia operativa entre ambos sistemas.

Una de las medidas clave para lograr esta independencia operativa es garantizar que el personal involucrado en la recolección de datos de la encuesta no participe en las mismas áreas geográficas o comunidades donde trabajaron durante el censo. Esto reduce la posibilidad de que los encuestadores influyan en las respuestas de los individuos basándose en interacciones previas o en información recopilada durante el censo. Además, al evitar la superposición de personal, se minimiza el riesgo de que los encuestados asocien ambas actividades, lo que podría alterar su disposición a participar o la veracidad de sus respuestas.

Otra estrategia importante es asegurar que las entrevistas de la encuesta se realicen después de que las operaciones del censo hayan concluido en un área específica. Esto permite que los procesos de recolección de datos no se solapen temporalmente, lo que reduce la posibilidad de que los resultados de una actividad afecten directa o indirectamente a la otra. Por ejemplo, si un individuo ha sido contactado recientemente para el censo, podría sentirse menos motivado a participar en la encuesta, o viceversa. Separar prudencialmente ambas operaciones ayuda a mantener la independencia de las respuestas.

Además, es crucial restringir el acceso del personal del censo a la información sobre la muestra de la encuesta. De manera similar, el personal de la encuesta no debería tener acceso a los resultados del censo durante la fase de recolección de datos, ya que esta información podría sesgar su enfoque o interpretación de las respuestas.

1.2.5 Emparejamiento

Se asume que es posible realizar un emparejamiento preciso entre los resultados de la encuesta y los del censo. Esto significa que se puede identificar de manera exacta y sin errores:

Cuáles individuos registrados en la encuesta también aparecen en los registros del censo.
Cuáles individuos de la encuesta no están presentes en los datos del censo.

Este emparejamiento correcto es crucial para evaluar la cobertura del censo y para ajustar las estimaciones de la población total, asegurando que los datos sean lo más precisos y completos posible.

Por otro lado, se asume que inevitablemente habrá algún grado de no respuesta en el censo y en la encuesta. Esto significa que algunos individuos no serán contactados o no proporcionarán la información solicitada. Para abordar este problema, es fundamental recopilar suficiente información auxiliar sobre los no respondientes. Esta información puede incluir datos como nombres, direcciones, fechas de nacimiento y otros identificadores únicos que permitan una correcta identificación de los individuos.

En la práctica, se implementan procedimientos específicos para asegurar que la información recopilada sea lo suficientemente detallada y precisa para permitir un emparejamiento exacto entre los datos del censo y los de la encuesta. Este emparejamiento es crucial para evaluar la cobertura del censo y ajustar las estimaciones de la población total.

1.2.6 Eventos espurios

Se asume que tanto el censo como la encuesta están libres de incidencias espurias o falsas, o que estas han sido eliminadas antes de realizar las estimaciones. Esto implica que se han tomado medidas para evitar cualquier tipo de error en el registro de los resultados tanto del censo como de la encuesta. En la práctica, esto significa que se han implementado procedimientos rigurosos para identificar y corregir cualquier anomalía en los datos. Algunos de los eventos espurios más importantes que pueden ocurrir incluyen:

Duplicaciones en la lista del censo. Esto ocurre cuando un individuo es contado más de una vez en el censo, lo que puede inflar artificialmente el tamaño de la población.
Registros de casos inexistentes. Estos son registros de individuos que no existen en realidad, pero que han sido incluidos erróneamente en el censo o en la encuesta. Esto puede suceder debido a errores de entrada de datos o malentendidos durante la recolección de información.
Casos no pertinentes. Estos son individuos que no deberían haber sido incluidos en el censo debido a que no cumplen con los criterios del período de referencia. Un ejemplo común es el registro de un individuo que nació después del período de referencia del censo, lo que resulta en una inclusión incorrecta en los datos.

Para asegurar la precisión de las estimaciones, es crucial que estos eventos espurios sean identificados y eliminados antes de proceder con el análisis de los datos.

1.2.7 Postestratificación

Es frecuente y beneficioso aplicar algún tipo de postestratificación en la estimación del tamaño real de la población. La postestratificación es una técnica estadística que permite ajustar las estimaciones de la población dividiéndola en subgrupos homogéneos, basados en variables categóricas. Esta técnica mejora la precisión y la validez de las estimaciones al considerar las diferencias dentro de la población.

Por ejemplo, una forma común de postestratificación es por edad. En este caso, la población se divide en diferentes grupos de edad, como niños, adolescentes, adultos jóvenes, adultos de mediana edad y personas mayores. Para cada uno de estos grupos de edad, se realizan estimaciones específicas de la población. Estas estimaciones se basan en los datos recolectados tanto en el censo como en la encuesta. Una vez obtenidas las estimaciones específicas por edad, se agregan para calcular una estimación total de la población, denotada como \(N\).

La postestratificación no se limita solo a la edad; también se puede aplicar a otras variables demográficas y socioeconómicas, como sexo, etnia, nivel educativo, región geográfica, entre otras. Es fundamental que cualquier variable utilizada para la postestratificación esté correctamente registrada para todos los individuos tanto en el censo como en la encuesta.

References

Bureau, US Census. 2022. “2020 Post-Enumeration Survey Estimation Design.”