4.1 Estimador de Petersen

El estimador de Petersen (1896), también conocido como el estimador de Lincoln-Petersen, fue originalmente desarrollado para estudios de fauna, pero su uso se ha extendido a otros campos.

El supuesto fundamental es que la población es cerrada entre los dos eventos (sin nacimientos, muertes, inmigración o emigración), que todos los individuos tienen la misma probabilidad de captura, y que la marcación no afecta la probabilidad de recaptura, es decir, asume que las fuentes de identificación son independientes.

Teniendo en cuenta lo establecido en ??, el evento conjunto de que un individuo esté o no esté en el censo y esté o no en la encuesta se puede modelar correctamente usando una distribución multinomial con los siguientes parámetros:

\[ \begin{array}{c|cc|c} & \text{En la encuesta} & \text{Fuera de la encuesta} & \text{Total} \\ \hline \text{En el censo} & p_{11} & p_{12} & p_{1+} \\ \text{Fuera del censo} & p_{21} & p_{22} & p_{2+} \\ \hline \text{Total} & p_{+1} & p_{+2} & 1 \end{array} \]

Bajo el supuesto de independencia causal, tenemos:

\[\frac{p_{11} \cdot p_{22}}{p_{21} \cdot p_{12}} = 1\]

Bajo este supuesto se puede estimar:

\[ \hat{p}_{22} = \frac{p_{21}\cdot p_{12}}{p_{11}} \]

Al tener en cuenta que \(\hat{N}_{11}\) es la cantidad de personas en ambas fuentes y que \(\hat{N}_{+1}\) y \(\hat{N}_{1+}\) es la cantidad observada en cada fuente, el estimador de Lincoln–Petersen es:

\[\begin{align} \hat{N}_{LP} &= \hat{p}_{11} + \hat{p}_{12} + \hat{p}_{22} + \hat{p}_{21} \\ &= \hat{N}_{11} + (\hat{N}_{+1} - \hat{N}_{11}) + (\hat{N}_{1+} - \hat{N}_{11}) + \frac{(\hat{N}_{+1} - \hat{N}_{11}) \cdot (\hat{N}_{1+} - \hat{N}_{11})}{\hat{N}_{11}} \\ &= \frac{\hat{N}_{+1} \cdot \hat{N}_{1+}}{\hat{N}_{11}} \end{align}\]

El estimador de Petersen es el más conocido de los estimadores de tamaño poblacional en el sistema dual y puede demostrarse que es un estimador de máxima verosimilitud condicional para el modelo log-lineal de independencia con dos variables (Fienberg 1972; Bishop, Fienberg, and Holland 2007).

El estimador de la varianza de \(\hat{N}\) bajo el modelo multinomial, que usa las contrapartes muestrales en lugar de las poblacionales, es:

\[ \hat{V}_{LP}(\hat{N}) = \frac{\hat{N}_{1+} \cdot \hat{N}_{+1} \cdot (\hat{N}_{1+} - \hat{N}_{11}) \cdot (\hat{N}_{+1} - \hat{N}_{11})}{\hat{N}_{11}^3} \]

References

Bishop, Yvonne M, Stephen E Fienberg, and Paul W Holland. 2007. Discrete Multivariate Analysis: Theory and Practice. Springer Science & Business Media.
Fienberg, Stephen E. 1972. “The Multiple Recapture Census for Closed Populations and Incomplete 2k Contingency Tables.” Biometrika 59 (3): 591–603.
Petersen, Carl G. J. 1896. “The Yearly Immigration of Young Plaice into the Limfjord from the German Sea.” Report of the Danish Biological Station 6: 1–48.