1.3 Inferencia
Nuestro objetivo es estimar el tamaño total de una población, denotado como \(N_{++}\), utilizando dos fuentes de información complementarias. La primera fuente es el censo, el cual logra capturar correctamente a \(N_{+1}\) individuos de la población. La segunda fuente es la encuesta, que captura de manera precisa a \(N_{1+}\) individuos.
Uno de los supuestos del sistema de estimación dual es que el evento de que una persona sea encontrada se puede modelar como un proceso estocástico de tipo Bernoulli. Esto quiere decir que \(N_{11}\), \(N_{1+}\) y \(N_{+1}\) se asumen como variables aleatorias binomiales al ser sumas de eventos Bernoulli.
1.3.1 Los estimadores del sistema dual
Bajo este modelo, las variables aleatorias siguen distribuciones binomiales condicionales:
\[ N_{1+} \sim \text{Bin}(N_{++}, p_{1+}), \quad N_{+1} \sim \text{Bin}(N_{++}, p_{+1}), \quad N_{11} \sim \text{Bin}(N_{++}, p_{11}) \]
Una vez que los datos hayan sido recolectados y clasificados bajo este esquema, es bien sabido en la literatura estadística, que los estimadores para las probabilidades de interés toman la siguiente forma:
\[ \tilde{p}_{11} = \frac{N_{11}}{N_{++}}, \quad \tilde{p}_{1+} = \frac{N_{1+}}{N_{++}}, \quad \tilde{p}_{+1} = \frac{N_{+1}}{N_{++}} \]
Al asumir independencia entre la captura en el censo y la captura en la encuesta, entonces \(\tilde{p}_{11} = \tilde{p}_{1+} \cdot \tilde{p}_{+1}\), y por ende:
\[ \frac{N_{11}}{N_{++}} = \frac{N_{1+}}{N_{++}} \cdot \frac{N_{+1}}{N_{++}} \]
Luego, al despejar convenientemente, se encuentra que el estimador del sistema dual para el total poblacional \(N_{++}\) está dado por
\[ \tilde{N}_{++} = \frac{N_{1+} \cdot N_{+1}}{N_{11}} \]
A partir de este resultado, podemos reemplazar en las expresiones \(\tilde{p}_{11}\), \(\tilde{p}_{1+}\) y \(\tilde{p}_{+1}\) para obtener estimadores de máxima verosimilitud para las probabilidades de interés son los siguientes:
\[ \tilde{p}_{11} = \frac{N_{11}}{\tilde{N}_{++}} = \frac{N_{11}^2}{N_{1+} \cdot N_{+1}} \]
\[ \tilde{p}_{1+} = \frac{N_{1+}}{\tilde{N}_{++}} = \frac{N_{11}}{N_{+1}} \]
\[ \tilde{p}_{+1} = \frac{N_{+1}}{\tilde{N}_{++}} = \frac{N_{11}}{N_{1+}} \]
Wolter (1986, sección 2.4) plantea un esquema conjunto que induce estos mismos estimadores a partir de la función de verosimilitud asociada al modelo, la cual está dada por la siguiente expresión:
\[ L(N, p_{i+}, p_{+i}) = \binom{N}{x_{11}, x_{12}, x_{21}} p_{1+}^{x_{1+}} (1 - p_{1+})^{N - x_{1+}} p_{+1}^{x_{+1}} (1 - p_{+1})^{N - x_{+1}}. \]
Los estimadores de máxima verosimilitud de los parámetros de interés se encuentran maximizando la anterior expresión sujeta a las restricciones pertinentes sobre las sumas de las probabilidades.
1.3.2 Propiedades del estimador
El estimador \(\tilde{N}_{++}\), es conocido como el método de Petersen, y es utilizado en estudios de captura y recaptura para estimar el tamaño de una población. Este método fue desarrollado por el biólogo danés Carl Georg Johannes Petersen (Petersen 1896) y más tarde popularizado por C. Chandra Sekar y W. Edwards Deming en 1949 para estimar tasas de nacimientos y defunciones, así como la cobertura de los registros vitales (Sekar and Deming 1949).
Para demostrar que este estimador es insesgado, se debe verificar que \(E[\tilde{N}_{++}] = N_{++}\). En primer lugar, por la propiedad de la esperanza en distribuciones binomiales, se tiene que:
\[ E[N_{1+}] = N_{++} p_{1+}, \quad E[N_{+1}] = N_{++} p_{+1}, \quad E[N_{11}] = N_{++} p_{11} \]
Ahora, la esperanza del estimador toma la siguiente forma:
\[ E[\tilde{N}_{++}] = E\left[ \frac{N_{1+} \cdot N_{+1}}{N_{11}} \right] \]
En primera instancia como \(N_{1+}\) y \(N_{+1}\) son variables aleatorias, es necesario apelar a las propiedades de la esperanza condicional, de la siguiente manera:
\[ E[\tilde{N}_{++}] = E \left[ E \left( \frac{N_{1+} \cdot N_{+1}}{N_{11}} \Bigg| N_{1+}, N_{+1} \right) \right] \]
Además, como \(N_{11}\) también es una variable aleatoria, entonces bajo condiciones de regularidad que permitan utilizar la expansión de Taylor, es posible aproximar la esperanza de este cociente al cociente de las esperanzas (Casella and Berger 2002). De esta forma, se tiene que:
\[ E \left( \frac{N_{1+} \cdot N_{+1}}{N_{11}} \Bigg| N_{1+}, N_{+1} \right) = \frac{E (N_{1+} \cdot N_{+1}| N_{1+}, N_{+1} )}{E (N_{11}| N_{1+}, N_{+1} )} \]
Dado que \(N_{1+}\) y \(N_{+1}\) son independientes, entonces \(E[N_{1+} \cdot N_{+1}] = E[N_{1+}] E[N_{+1}]\). Reemplazando convenientemente, se tiene que
\[ E[\tilde{N}_{++}] = \frac{N_{++}^2 p_{1+} p_{+1}}{N_{++} p_{1+} p_{+1}} = N_{++} = N \]
Por otro lado, Wolter (1986) afirma que la varianza del estimador puede ser estimada mediante la siguiente expresión:
\[ \tilde V[\tilde{N}_{++}] = \frac{N_{1+} \cdot N_{+1} \cdot N_{12} \cdot N_{21} }{N_{11}^3} \]