4.7 Modelos log-lineales

Los modelos log-lineales proporcionan un enfoque alternativo y generalizado para estimar la población total en estudios de captura y recaptura, y se pueden usar cuando hay dos o más fuentes o listas (Fienberg 1972; Cormack 1989). Para el caso de un sistema de estimación dual, el modelo log-lineal, puede representarse como un modelo lineal generalizado de Poisson (GLM), aplicado sobre los tres conteos observados, \(N_{11}\), \(N_{12}\), y \(N_{21}\), así:

\[N_{ij} \sim Poisson(\theta_{ij})\]

\[ \log(\theta_{ij}) = \lambda + \lambda_1^{(i)} + \lambda_2^{(j)} \]

donde:

  • \(\lambda\): parámetro de intercepto general.
  • \(\lambda_1^{(i)}\): mide el efecto de estar en la lista 1 (presencia o ausencia).
  • \(\lambda_2^{(j)}\): mide el efecto de estar en la lista 2 (presencia o ausencia).

De esta forma \(\hat{N}_{22}=\exp(\hat{\lambda})\), donde \(\hat{\lambda}\) es el estimador de máxima verosimilitud de \(\lambda\). Por lo tanto, el total poblacional estimado es:

\[\hat{N} = \hat{N}_{11} + \hat{N}_{12} + \hat{N}_{21} + \hat{N}_{22}\]

Este modelo asume independencia entre listas, es decir, que la probabilidad de ser observado en una lista no depende de haber sido observado en la otra. Si se sospecha alguna dependencia entre listas, que es una situación que podría ocurrir en contextos como censos y encuestas de cobertura, se incluye un término de interacción:

\[ \log(\theta_{ij}) = \lambda + \lambda_1^{(i)} + \lambda_2^{(j)} + \lambda_{12}^{(ij)} \]

Aquí:

  • \(\lambda_{12}^{(ij)}\): representa la interacción entre pertenencia a la lista 1 y la lista 2.
    • Si \(\lambda_{12}^{(11)} > 0\): hay dependencia positiva, es decir, más coincidencias de lo esperado.
    • Si \(\lambda_{12}^{(11)} < 0\): hay dependencia negativa, así que habrán menos coincidencias de lo esperado.

El modelo se puede implementar en R con Rcapture::closedp(). Suponiendo que la muestra E y muestra P se han organizado en un df con las variables binarias lista1 y lista2 codificadas como 1 y 0, entonces se puede usar el siguiente código para realizar la estimación

library(Rcapture)
closedp.t(df, df$lista1, df$lista2)

En caso de contar con la tabla de frecuencias de las celdas \(N_{11}\), \(N_{12}\) y \(N_{21}\) se puede hacer así:

tabla <- round(matrix(c(1,1,N11,
                        1,0,N12,
                        0,1,N21), byrow = TRUE, ncol = 3))
colnames(tabla) <- c("E", "P", "freq")

closedp(tabla, dfreq = TRUE)

Es importante destacar que existen diferentes enfoques que puede ser utilizados para realizar la estimación del total poblacional a partir de este tipo de modelos (Otis et al. 1978; Rivest and Baillargeon 2007, 2014; Baillargeon and Rivest 2007).

References

Baillargeon, Sophie, and Louis-Paul Rivest. 2007. “Rcapture: Loglinear Models for Capture-Recapture in r.” Journal of Statistical Software 19: 1–31.
Cormack, Richard M. 1989. “Log-Linear Models for Capture-Recapture.” Biometrics, 395–413.
Fienberg, Stephen E. 1972. “The Multiple Recapture Census for Closed Populations and Incomplete 2k Contingency Tables.” Biometrika 59 (3): 591–603.
Otis, David L, Kenneth P Burnham, Gary C White, and David R Anderson. 1978. “Statistical Inference from Capture Data on Closed Animal Populations.” Wildlife Monographs, no. 62: 3–135.
Rivest, Louis-Paul, and Sophie Baillargeon. 2007. “Applications and Extensions of Chao’s Moment Estimator for the Size of a Closed Population.” Biometrics 63 (4): 999–1006.
———. 2014. “Capture-Recapture Methods for Estimating the Size of a Population: Dealing with Variable Capture Probabilities.” Statistics in Action: A Canadian Outlook 40: 289–304.