11.4 Método de Máxima Pseudo-Verosimilitud

El anterior método tiene la particularidad de que \(y_{i}\) son IID, en la vida real muchas veces no es posible poder cumplir ese supuesto. En los procedimientos actuales se recurre a obtener una muestra compleja mediante la realización de conglomerados que tengan alguna relación particular de aglomeración para luego estratificarlos y llegar al individuo de interés que nos proporcione información sobre el estudio. Con esa muestra compleja cumplimos con que todos los individuos tienen una probabilidad de inclusión desigual sin la necesidad de utilizar un marco muestral.

A partir de eso Pfeffermann(1993) discutió la posibilidad de hacer inferencia en la población partiendo de la información de una muestra, para esto se propuso crear un pseudo-parámetro que tenga en cuenta el diseño muestral, es decir, que el score \(u_{i}\) sea ponderado por el inverso de la probabilidad de inclusión que denominaremos \(u_{i}\). Este método es conocido como Máxima Pseudo Verosimilitud(MPV).

\[ L(\theta)=\prod_{i=1}^{n}w_{i}f(y_{i},\theta) \] Para un mejor manejo de esta función se sugiere aplicar propiedades de los logaritmos generando la siguiente función:

\[ l(\theta)=\sum_{i=1}^{n}\ln[w_{i}f(y_{i},\theta)] \]

Calculando las derivadas parciales de \(L(\theta)\) con respecto a \(\theta\) e igualando a cero tenemos un sistema de ecuaciones como sigue:

\[ \dfrac{\partial l(\theta)}{\partial\theta}=\sum_{i=1}^{n}w_{i}u_{i}(\theta)=0 \]

donde \(ui=\partial\ln[f(y_{i},\theta)]/\partial\theta\) es el vector de “score” de elementos \(i,i\in n\) ponderado por \(w_{i}\), ahora definiremos \(T\) como:

\[ T=\sum_{i=1}^{n}w_{i}u_{i}(\theta)=0 \] Mediante la linealización de Taylor y considerando los resultados de Binder(1983), podemos obtener una varianza asintóticamente insesgada de la siguiente forma:

\[ V_{p}(\hat{\theta}_{M}PV)\cong[J(\theta_{U})]^{-1}V_{p}(T)[J(\theta_{U})]^{-1} \]

donde,

\[ J(\theta_{U})=\sum_{i\in U}\dfrac{\partial u_{i}(\theta)}{\partial(\theta)}\mid_{\theta=\theta_{U}} \]

La estimación de la varianza anterior está definida por:

\[ \hat{V}_{p}(\hat{\theta}_{MPV})\cong[\hat{J}(\hat{\theta}_{MPV})]^{-1}\hat{V}_{p}(T)[\hat{J}(\hat{\theta}_{MPV})]^{-1} \] donde,

\[ \hat{J}(\theta_{MPV})=\sum_{i\in U}w_{i}\dfrac{\partial u_{i}(\theta)}{\partial(\theta)}\mid_{\theta=\theta_{MPV}} \]

11.4.1 MPV para una distribución Bernoulli

Las ecuaciones de verosimilitud dadas anteriormente, conllevan a aplicar la técnica de pseudo-verosimilitud, para la cual, en primer lugar, se definen:

\[ u_{k}(\theta)=\frac{y_{k}-\theta}{\theta(1-\theta)} \] Luego, las ecuaciones de pseudo-verosimilitud son:

\[ \sum_{k=1}^{n}w_{k}u_{k}(\theta)=\sum_{k=1}^{n}w_{k}\frac{y_{k}-\theta}{\theta(1-\theta)} \]

Por lo tanto, al igualar a cero, se tiene que:

\[ \sum_{k=1}^{n}w_{k}y_{k}-\theta\sum_{k=1}^{n}w_{k}=0 \]

Por lo anterior, al despejar, se tiene que el estimador de máxima pseudo-verosimilitud, está dado por:

\[ \hat{\theta}_{MPV}=\frac{\sum_{k=1}^{n}w_{k}y_{k}}{\sum_{k=1}^{n}w_{k}}=\frac{\hat{t}_{y,\pi}}{\hat{N}}=\tilde{y}_{S}=\tilde{p}_{d} \]

Luego, el estimador de la varianza de \(\hat{\theta}_{MPV}\) es:

\[ \hat{V}_{p}(\hat{\theta}_{MPV})\cong[\hat{J}(\hat{\theta}_{MPV})]^{-1}\hat{V}_{p}(\hat{t}_{u\pi})[\hat{J}(\hat{\theta}_{MPV})]^{-1} \]

donde

\[ \hat{J}(\theta_{MPV})=\sum_{i\in U}w_{i}\dfrac{\partial u_{i}(\theta)}{\partial(\theta)}\mid_{\theta=\hat{\theta_{MPV}}}=\frac{\hat{N}}{\tilde{y}_{S}(1-\tilde{y}_{S})}=\frac{\hat{N}}{\tilde{p}_{d}(1-\tilde{p}_{d})} \]

Por ejemplo, bajo un muestreo aleatorio simple sin reemplazo, se tiene que el estimador de máxima pseudo-verosimilitud es \(\hat{\theta}_{MPV}=\bar{y}_{S}\). Además, la estimación de su varianza es:

\[ \hat{V}_{MAS}(\hat{t}_{u\pi})=\frac{N^{2}}{n}\left(1-\frac{n}{N}\right)S_{\hat{u}_{S}}^{2}=\frac{N^{2}}{n}\left(1-\frac{n}{N}\right)\frac{1}{n-1}\sum_{k=1}^{n}(\hat{u}_{k}-\bar{\hat{u}})^{2} \]

Luego, teniendo en cuenta que bajo este diseño de muestreo, se tiene que \(\bar{\hat{u}}=0\) y que \(\hat{N}=N\), entonces el estimador de la varianza de \(\hat{\theta}_{MPV}\) es:

\[ \hat{V}_{MAS}(\hat{\theta}_{MPV})\cong\frac{1}{n}\left(1-\frac{n}{N}\right)S_{y_{S}}^{2} \] Nótese que la anterior expresión, coincide plenamente con la estimación de la varianza de la media muestral, es decir \(\hat{V}_{MAS}(\hat{\theta}_{MPV})=\hat{V}_{MAS}(\bar{y}_{S})\).

11.4.2 MPV para una distribución normal

Siguiendo el mismo orden de la sección de Máxima Verosimilitud, se ilustrará el método de Máxima Pseudo Verosimilitud, suponga que \(f(y;\theta)\) sigue una función de distribución normal.

\[ f(y;\theta)=\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2}\left(\dfrac{y_{i}-\theta^{2}}{\sigma^{2}}\right)w_{i}\right] \]

Aplicaremos la productoria para llegar a la probabilidad conjunta:

\[ L(\theta)=\prod_{i=1}^{n}\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2}\left(\dfrac{y_{i}-\theta^{2}}{\sigma^{2}}\right)w_{i}\right] \]

Con algo de algebra llegamos a:

\[ L(\theta)=(2\pi\sigma^{2})^{-n/2}\exp[(-\dfrac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-\theta^{2})w_{i}] \]

Utilizamos logaritmos tenemos:

\[ l(\theta)=ln(2\pi\sigma^{2})^{-n/2}[-\dfrac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-\theta^{2})w_{i}] \] Maximizamos la anterior expresión con derivadas parciales tenemos:

\[ \partial l(\theta)/\partial\theta=\dfrac{1}{\sigma^{2}}\sum_{i=1}^{n}(y_{i}-\theta^{2})w_{i}=0 \]

Despejando \(\theta\), se llega a un resultado interesante:

\[ \theta=\dfrac{\sum_{i=1}^{n}y_{i}}{\sum_{i=1}^{n}w_{i}}=\dfrac{\hat{t}_{y\pi}}{\hat{N}}=\tilde{Y} \]

Esto nos conlleva que, para la función \(\theta\) una estimación es el promedio muestral ponderado.

11.4.3 MPV para una regresión múltiple

Con el modelo de la forma \(X'\beta\) se tiene una matriz \(X\) de dimensión \(n\times i\), donde \(n\) es el tamaño de la muestra e \(i\) es el número de variables predictoras, también una matriz \(W\) diagonal, con los \(w_{i}\), de tamaño \(n\times n\), y, por último, se define dos vectores, uno \(Y\) de tamaño \(n\) como la variable de interés y otro \(\beta\) de tamaño \(i\). Con estas condiciones se puede definir una función de verosimilitud de la siguiente manera. Conociendo la función de distribución normal de \(X\)

\[ f(Y;X\beta)=\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2\sigma^{2}}(Y-X\beta)'W(Y-X\beta)\right] \]

Se halla la probabilidad conjunta matricialmente:

\[ L(Y;X\beta)=\prod_{i=1}^{n}\dfrac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left[-\dfrac{1}{2\sigma^{2}}(Y-X\beta)'W(Y-X\beta)\right] \] Simplificando la anterior expresión se llega a:

\[ L(Y;X\beta)=(2\pi\sigma^{2})^{-N/2}-\exp\left[\dfrac{1}{2\sigma^{2}}(Y'WY-Y'WX\beta-(X\beta)'WY+(X\beta)'WX\beta)\right] \]

Para poder derivar mejor, se aplica propiedades de los logaritmos:

\[ l(Y;X\beta)=ln(2\pi\sigma^{2})^{-N/2}-\dfrac{1}{2\sigma^{2}}(Y'WY-Y'WX\beta-(X\beta)'WY+(X\beta)'WX\beta) \] Maximizando el anterior resultado conoceremos el score \(T\):

\[ T=\dfrac{\partial l(Y;X\beta)}{\partial\beta}=-\dfrac{1}{2\sigma^{2}}(-2X'WY+2X'WX\beta) \]

Despejando \(\beta\) tenemos el siguiente resultado:

\[ \beta=(X'WX)^{-1}(X'Y) \] Con este \(\beta\) podemos estimar un modelo partiendo de una muestra probabilística compleja.

Asparouhov, Tihomir. 2006. «General multi-level modeling with sampling weights». Communications in Statistics—Theory and Methods 35 (3): 439-60.
Bache, Stefan Milton, y Hadley Wickham. 2022. magrittr: A Forward-Pipe Operator for R. https://CRAN.R-project.org/package=magrittr.
Berglund, Paul A., y Steven G. Heeringa. 2014. Multiple Imputation of Missing Data Using SAS. Cary, NC: SAS Institute Inc.
Binder, David A. 1983. «On the variances of asymptotically normal estimators from complex surveys». International Statistical Review 51: 279-92.
Binder, David A., y Milojica S. Kovacevic. 1995. «Estimating some measures of income inequality from survey data: An application of the estimating equations approach». Survey Methodology 21 (2): 137-45.
Browne, William J., y David Draper. 2006. «A Comparison of Bayesian and Likelihood-Based Methods for Fitting Multilevel Models». Bayesian Analysis 1 (3): 473-514. https://doi.org/10.1214/06-BA117A.
Buuren, Stef van. 2012. Flexible Imputation of Missing Data. Boca Raton, FL: Chapman & Hall.
Cai, Tianji. 2013. «Investigation of ways to handle sampling weights for multilevel model analyses». Sociological Methodology 43 (1): 178-219.
Carpenter, James R., y Michael G. Kenward. 2013. Multiple Imputation and Its Application. Chichester, West Sussex, UK: John Wiley & Sons.
CEPAL. 2023. Diseño y análisis estadístico de las encuestas de hogares de América Latina. Comisión Económica para América Latina y el Caribe.
Dean, Natalie, y Marcello Pagano. 2015. «Evaluating Confidence Interval Methods for Binomial Proportions in Clustered Surveys». Journal of Survey Statistics and Methodology 3 (4): 484-503. https://doi.org/10.1093/jssam/smv024.
Deville, Jean-Claude, y Carl-Erik Särndal. 1992. «Calibration Estimators in Survey Sampling». Journal of the American Statistical Association 87 (418): 376-82. https://doi.org/10.1080/01621459.1992.10475217.
Fay, Robert E. 1979. «On adjusting the Pearson Chi-square statistic for cluster sampling». En Proceedings of the Social Statistics Section, American Statistical Association, 402-5. Washington, DC.
Fellegi, Ivan P. 1980. «Approximate tests of independence and goodness of fit based on stratified multistage samples». Journal of the American Statistical Association 75: 261-68.
Freedman Ellis, Greg, y Ben Schneider. 2023. srvyr: ’dplyr’-Like Syntax for Summary Statistics of Survey Data. https://CRAN.R-project.org/package=srvyr.
Fuller, Wayne A. 1975. «Regression analysis for sample survey». Sankyha, Series C 37: 117-32.
———. 2002. «Regression estimation for survey samples (with discussion)». Survey Methodology 28 (1): 5-23.
Gambino, Jack G., y Pedro Luis do Nascimento Silva. 2009. «Chapter 16 - Sampling and Estimation in Household Surveys». En Handbook of Statistics, editado por C. R. Rao, 29:407-39. Handbook of Statistics. Elsevier. https://doi.org/https://doi.org/10.1016/S0169-7161(08)00016-3.
Garbuszus, Jan Marvin, y Sebastian Jeworutzki. 2023. readstata13: Import ’Stata’ Data Files. https://CRAN.R-project.org/package=readstata13.
Gelman, Andrew, y Jennifer Hill. 2019. Data Analysis Using Regression and Multilevel/Hierarchical Models. Third Edition. Cambridge, UK: Cambridge University Press.
Goldstein, Harvey. 2011. Multilevel Statistical Models. Place of Publication: John Wiley & Sons.
Groves, Robert, Floyd Fowler, Mick Couper, James Lepkowski, Eleanor Singer, y Roger Tourangeau. 2009. Survey Methodology. John Wiley; Sons.
Gutiérrez, H. A. 2009. Estrategias de muestreo: diseño de encuestas y estimación de parámetros. Bogotá: Facultad de Estadística, Universidad Santo Tomás.
———. 2016. Estrategias de muestreo: diseño de encuestas y estimación de parámetros. Segunda edición. Ediciones de la U.
———. 2020a. samplesize4surveys: Sample Size Calculations for Complex Surveys. https://CRAN.R-project.org/package=samplesize4surveys.
———. 2020b. TeachingSampling: Selection of Samples and Parameter Estimation in Finite Population. https://CRAN.R-project.org/package=TeachingSampling.
Heeringa, Steven G., Brady T. West, y Patricia A. Berglund. 2017. Applied survey data analysis. Chapman y Hall CRC statistics en the social y behavioral sciences series. CRC Press.
Kim, Jin K., y Wayne A. Fuller. 2004. «Fractional Hotdeck Imputation». Biometrika 89: 470-77.
Kim, Jin K., y Jun Shao. 2014. Statistical Methods for Handling Incomplete Data. Boca Raton, FL: Chapman & Hall.
Kish, Leslie, y Martin R Frankel. 1974. «Inference from complex samples». Journal of the Royal Statistical Society, Series B 36: 1-37.
Kovacevic, Milojica S., y David A. Binder. 1997. «Variance estimation for measures of income inequality and polarization–the estimating equations approach». Journal of Official Statistics 13 (1): 41.
Kovar, J. G., J. N. K. Rao, y C. F. J. Wu. 1988. «Bootstrap and other methods to measure errors in survey estimates». Canadian Journal of Statistics 16 (Suppl.): 25-45.
Langel, Matti, y Yves Tillé. 2013. «Variance estimation of the Gini index: revisiting a result several times published: Variance Estimation of the Gini Index». Journal of the Royal Statistical Society: Series A (Statistics in Society) 176 (2): 521-40. https://doi.org/10.1111/j.1467-985X.2012.01048.x.
Lumley, Thomas. 2016. «survey: analysis of complex survey samples».
Monroy, L. G., M. A. Rivera, y L. R. and Dávila. 2018. Análisis estadístico de datos categóricos. Universidad Nacional de Colombia.
Nelder, John A, y Robert WM Wedderburn. 1972. «Generalized linear models». Journal of the Royal Statistical Society: Series A (General) 135 (3): 370-84.
Neter, John, William Wasserman, y Michael H. Kutner. 1996. Applied Linear Statistical Models. McGraw-Hill.
Osier, Guillaume. 2009. «Variance Estimation for Complex Indicators of Poverty and Inequality». Journal of the European Survey Research Association 3 (3): 167-95. http://ojs.ub.uni-konstanz.de/srm/article/view/369.
Pfeffermann, Danny. 2011. «Modelling of complex survey data: Why model? Why is it a problem? How can we approach it?» Survey Methodology 37 (2): 115-36.
Pfeffermann, Danny, Chris J Skinner, Don J Holmes, Harvey Goldstein, y Jon Rasbash. 1998. «Weighting for unequal selection probabilities in multilevel models». Journal of the Royal Statistical Society: Series B (Statistical Methodology) 60 (1): 23-40.
R Core Team. 2022. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
Rabe-Hesketh, Sophia, y Anders Skrondal. 2012. Multilevel and Longitudinal Modeling Using Stata. College Station, TX: STATA Press.
Raghunathan, Trivellore E. 2016. Missing Data Analysis in Practice. Boca Raton, FL: Chapman & Hall/CRC Interdisciplinary Statistics.
Rao, J. N. K., y A. J. Scott. 1984a. «On chi-squared test for multiway contingency tables with cell proportions estimated from survey data». The Annals of Statistics 12: 46-60.
———. 1984b. «On chi-squared tests for multiway contingency tables with cell proportions estimated from survey data». The Annals of Statistics 12 (1): 46-60.
Rubin, Donald B. 1987. «Multiple imputation for survey nonresponse». Journal of the American Statistical Association 82 (398): 63-70.
Rust, Keith F., Valerie Hsu, y Westat. 2007. «Confidence Intervals for Statistics for Categorical Variables from Complex Samples». En. https://api.semanticscholar.org/CorpusID:195852485.
Särndal, Carl-Erik, Bengt Swensson, y Jan Wretman. 2003. Model Assisted Survey Sampling. Springer Science; Business Media.
Shah, B. V., M. M. Holt, y R. F. Folsom. 1977. «Inference about regression models from sample survey data». Bulletin of the International Statistical Institute 41 (3): 43-57.
Skinner, Chris J, Daniell Holt, y Tom M F Smith. 1989. Analysis of Complex Surveys. New York: John Wiley & Sons.
Thomas, D. R., y J. N. K. Rao. 1987. «Small-sample comparisons of level and power for simple goodness-of-fit statistics under cluster sampling». Journal of the American Statistical Association 82: 630-36.
Wickham, Hadley. 2016. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse». Journal of Open Source Software 4 (43): 1686. https://doi.org/10.21105/joss.01686.
Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, y Davis Vaughan. 2023. dplyr: A Grammar of Data Manipulation. https://CRAN.R-project.org/package=dplyr.
Wolter, Kirk M. 2007. Introduction to variance estimation. 2nd ed. Statistics for social y behavioral sciences. Springer.