2.3 Los estimadores de muestreo
Como la encuesta representa una muestra de la población que viene de una medida de probabilidad, y a su vez, existe un modelo multinomial, entonces se introduce una complejidad metodológica clave: la necesidad de establecer las bases inferenciales para incluir dos fuentes de incertidumbre: el modelo y el muestreo (Binder 2011). Wolter (1986) afirma que este cambio de enfoque implica que la estimación del error de cobertura debe considerar dos fuentes principales de incertidumbre: (1) la variabilidad debida a la selección muestral de la encuesta, y (2) la variabilidad del modelo asociada con el modelo de error de cobertura.
La variabilidad inducida por la selección de la muestra de la encuesta implica que las estimaciones derivadas de ella (como \(N_{+1}\) o \(N_{11}\)) están afectadas por la aleatoriedad inherente a la selección de unidades en la muestra. Si la encuesta utiliza un diseño complejo (como estratificación o conglomerados), la variabilidad aumenta debido a los efectos de diseño. Este tipo de variabilidad se mide con los métodos clásicos de inferencia estadística en encuestas de hogares. En segundo lugar, está la variabilidad derivada del modelo multinomial. En esta instancia, la novedad radica en integrar estas incertidumbres por medio de una inferencia doble, usando los resultados bien conocidos de las esperanzas y varianzas condicionales.
Si denotamos por \(\pi_k\) la probabilidad de inclusión del elemento \(k\) en la muestra \(s_P\), la cual está determinada por su selección probabilística, entonces el peso de muestreo del elemento \(k\)-ésimo en la muestra P se define como \(w_k = \pi_k^{-1}\). Este peso refleja la inversa de la probabilidad de inclusión y se utiliza para ajustar las estimaciones en función del diseño de muestreo. De manera similar, los pesos de muestreo se definirán para la muestra \(s_E\). Para simplificar la notación, vincularemos la muestra correspondiente a través de los subíndices en las sumas. Por ejemplo, al referirnos a la muestra \(s_P\), utilizaremos el subíndice \(P\) en las sumas, y para la muestra \(s_E\), emplearemos el subíndice \(E\).
Asumiendo que \(x_{k, 11}\) representa una variable aleatoria dicotómica que toma el valor de uno si el individuo \(k\) fue encontrado tanto en la muestra como en el censo y, cero, en otro caso, entonces los estimadores de muestreo de \({N}_{+1}\) y \({N}_{11}\), serán respectivamente:
\[ \begin{aligned} \hat{N}_{+1} &= \sum_{k \in s_P} w_k \\ \hat{N}_{11} &= \sum_{k \in s_P} w_k \ x_{k, 11} \end{aligned} \]
Asimismo, si \(z_{k}\) representa una variable aleatoria dicotómica que toma el valor de uno si el individuo \(k\) fue correctamente enumerado en el censo y, cero, en otro caso, entonces el estimador de muestreo de \(N_{1+}\) será:
\[ \hat{N}_{1+} = {N}_{1+}^0 - \sum_{k \in s_E} w_k (1 - \ z_{k}) \]
En donde \({N}_{1+}^0\) denota el número de registros censales, el cual difiere del conteo de personas en el censo, y puede representar el conteo no corregido de personas en el censo. Esta cifra debe basarse exclusivamente en los datos recopilados durante el operativo censal, sin incluir imputaciones, proyecciones ni ningún otro tipo de ajustes estadísticos. Esto garantiza que los resultados reflejen fielmente la información obtenida en el campo. Para los anteriores estimadores, es claro que \(x_{k, 11}\) es una variable aletaoria que se define en la muestra \(s_P\), mientras que \(z_{k}\) es una variable aleatoria que se define en la muestra \(s_E\). Por otro lado, Bureau (2022) propone un estimador directo alternativo para \({N}_{1+}\), que se define a partir de la muestra E, y que corresponde a un conteo ponderado de enumeraciones correctas. Este estimador toma la siguiente forma:
\[ \hat{N}_{1+} = \sum_{k \in s_E} w_k \ z_{k} \]
Recordando que el estimador del modelo para \(N\) es \(\tilde{N} = \frac{ N_{1+} \cdot N_{+1}}{N_{11}}\); entonces, su estimador insesgado bajo el diseño de muestreo se encuentra reemplazando \(N_{1+}\), \(N_{+1}\) y \(N_{11}\) por sus respectivos estimadores insesgados en la muestra. Por consiguiente, se tiene que el estimador de muestreo del tamaño poblacional \(N\) tomará la siguiente forma:
\[ \hat{N}_{++} = \hat{N} = \frac{\hat{N}_{1+} \cdot \hat{N}_{+1}}{\hat{N}_{11}} \]
Nótese que los estimadores de muestreo para \({N}_{12}\) y \({N}_{21}\) toman la siguiente forma:
\[ \begin{aligned} \hat{N}_{12} &= \hat{N}_{1+} - \hat{N}_{11} \\ \hat{N}_{21} &= \hat{N}_{+1} - \hat{N}_{11} \end{aligned} \]
La existencia de individuos que no fueron capturados en ninguno de los dos listados representa un desafío significativo, ya que su número solo puede ser estimado indirectamente a partir de la superposición observada entre la encuesta y el censo. Por otro lado, Wolter (1986) establece las condiciones sobre las cuales estos estimadores son insesgados y además propone el siguiente estimador aproximadamente insesgado de su varianza:
\[ \tilde{V}(\hat{N}) = \tilde{V}_m(\tilde{N}) + \tilde{V}_p(\hat{N}) \]
En donde \(\tilde{V}_m(\tilde{N})\) es el estimador de la varianza de \(\tilde{N}\) bajo el modelo multinomial, que usa las contrapartes muestrales en lugar de las poblacionales, de la siguiente forma:
\[ \tilde{V}_m(\tilde{N}) = \frac{\hat{N}_{1+} \cdot \hat{N}_{+1} \cdot (\hat{N}_{1+} - \hat{N}_{11}) \cdot (\hat{N}_{+1} - \hat{N}_{11})}{\hat{N}_{11}^3} \]
Asimismo, \(\tilde V_p (\hat{N})\) corresponde con un estimador tradicional de varianzas para estimadores de muestreo (CEPAL 2023). De esta forma, Wolter (1986, sección 3.1.) afirma que
\[ \tilde V_p (\hat{N}) \approx \frac{M^2}{m}(1-f)S^2_{d} \]
Definiendo a \(\tilde{N}_{i, +1}\) como la estimación del tamaño del \(i\)-ésimo conglomerado a partir de la muestra \(s_P\), se tiene que \(S^2_{d} = \frac{1}{m-1}\sum_{i=1}^m d_i^2\) y además:
\[ d_i = \frac{\hat{N}_{1+}}{\hat{N}_{11}} \left(\tilde{N}_{k, +1} - \frac{\hat{N}_{+1}}{\hat{N}_{11}}x_{k, 11}\right) \]
Finalmente, es posible combinar los diferentes estimadores en las muestras E y P, junto con la información de los registros censales para crear otro tipo de estimadores. Siendo \(\hat{N}_{1+}^0 = \sum_{k \in s_E}w_k\) un estimador de muestreo del número de enumeraciones en el censo (correctas o erroneas), es posible ajustar el número de enumeraciones en el censo con su contraparte muestral, y definir el siguiente estimador de razón:
\[ \hat{N}_{++}^{ratio} = \frac{N_{1+}^0}{\hat{N}_{1+}^0} \frac{\hat{N}_{1+} \cdot \hat{N}_{+1}}{\hat{N}_{11}} \]
De la misma manera, es posible refinar el estimador usando la postestratificación (Gutiérrez 2016). Esta es una técnica que particiona la población en subgrupos homogéneos y que permite minimizar el impacto del sesgo de correlación (que los individuos que no fueron enumerados en el censo serán más propensos a no ser incluidos en la encuesta). Como se mencionó anteriormente, es usual utilizar al menos las divisiones administrativas mayores, los grupos de edad y el sexo. Cada una de las particiones inducidas por el cruce de estas variables se conoce como post-estratos. Suponiendo que existen \(G\) postestratos, entonces el estimador de razón post-estratificada toma la siguiente forma:
\[ \hat{N}_{++}^{post} = \sum_{g=1}^G \left[ \frac{N_{g1+}^0}{\hat{N}_{g1+}^0} \frac{\hat{N}_{g1+} \cdot \hat{N}_{g+1}}{\hat{N}_{g11}} \right] = \sum_{g=1}^G \left[N_{g1+}^0 \frac{\hat{p}_{g1+}}{\hat{p}_{g11}} \right] \]
En donde \(\hat{p}_{g1+} = \frac{\hat{N}_{g+1}}{\hat{N}_{g1+}^0}\) y \(\hat{p}_{g11} = \frac{\hat{N}_{g11}}{\hat{N}_{g+1}}\) son respectivamente estimadores directos de la proporción de individuos correctamente enumerados y de la proporción de emparejamiento en el post-estrato \(g\). Esta última expresión resultará muy valiosa para desarrollar modelos de estimación en áreas pequeñas, permitiendo calcular con mayor precisión la omisión censal.