Capítulo 8 Modelos lineales generalizados
Los Modelos Lineales Generalizados (MLG) constituyen una extensión natural a los modelos lineales tradicionales al incorporar flexibilidad en la elección de la distribución de la variable de interés. Mientras que los modelos lineales clásicos asumen normalidad como un imperativo en el ajuste e inferencia, los modelos lineales generalizados permiten abordar una variedad más amplia de situaciones, incluyendo respuestas no gausianas y variables de respuesta no lineales. El nombre que reciben se debe a que estos son una genralización de los modelos lineales basados en el supuesto de distribución normal para la variable respuesta. Al igual que los modelos lineales clásicos, tratados en capítulos anteriores, los MLG tienen aplicación en todas las disciplinas del saber.
Por ejemplo, si la variable de interés es dicotómica, no tendría ningún sentido ajustar un modelo de regresión normal, y se debería usar un modelo de regresión logística para modelar la probabilidad de éxito en términos de una combinación lineal de las variables predictoras. Otro ejemplo es la regresión de Poisson, que emplea la función de enlace log para modelar tasas de eventos en situaciones donde la variable respuesta es el recuento de ocurrencias, como en el análisis de datos de frecuencia de eventos. En resumen, estos modelos lineales generalizados proporcionan una aproximación unificada a la mayoría de los procedimientos usados en estadística aplicada.
Nelder y Wedderburn (1972) presentaron por primera vez el término en un artículo que, sin lugar a dudas, es uno de los más importantes publicados en el área de estadística, por su gran impacto y aplicación en diferentes disciplinas. En esta publicación se demostró que muchos de los métodos estadísticos ampliamente usados en la época, aparentemente desligados unos de otros, tales como la regresión lineal múltiple, el análisis probit, el análisis de datos provenientes de ensayos controlados, los modelos logit para proporciones, los modelos log-lineales para conteos, los modelos de regresión para datos de supervivencia, entre otros, se podían tratar con un marco teórico unificado y que las estimaciones de máxima verosimilitud para los parámetros de esos modelos podían obtenerse por el mismo algoritmo iterativo.
Los desarrollos teóricos en modelos lineales clásicos parten del supuesto que la variable respuesta tiene distribución normal, cuando un fenómeno en estudio genera datos para los cuales no es razonable la suposición de normalidad, como por ejemplo cuando la respuesta es categórica, una proporción o un conteo, obviamente la respuesta no es normal y no es recomendable analizar los datos suponiendo normalidad. Otro supuesto de los modelos lineales clásicos es el de homogeneidad de la varianza, situación que no se verifica cuando la respuesta es, por ejemplo, una variable aleatoria de poisson, distribución donde la media y la varianza son iguales; es decir, en este modelo un cambio en la media necesariamente implica cambio en la varianza.
Los modelos lineales generalizados son apropiados para modelar datos en condiciones de no normalidad y varianza no constante. Específicamente, en las encuestas de hogares existen variables que meritan su análisis usando modelos lineales generalizados. Es por esto que, este capítulo es de relevancia en este texto. Para ejemplificar los conceptos, inicialmente se cargan las librerías y la base de datos como sigue:
options(digits = 4)
options(tinytex.verbose = TRUE)
library (survey)
library(srvyr)
library(convey)
library(TeachingSampling)
library(printr)
library(stargazer)
library(broom)
library(jtools)
library(modelsummary)
library(patchwork)
Cargue de las bases de datos,
Por último, se define el diseño muestral utilizando la ponderación de Pfefferman, tal como se vio en el capítulo anterior.
modwk <-
lm(wk ~ Expenditure + Zone + Sex + Age2, data = encuesta)
wkpred <- predict(modwk)
encuesta %<>% mutate(qw = wk / wkpred)
diseno_qwgt <- encuesta %>%
as_survey_design(
strata = Stratum,
ids = PSU,
weights = qw,
nest = T
)
A continuación, se generan nuevas variables en el diseño para ser utilizadas en los ejemplos. En particular, se crea una variable dicotómica que indica si la persona está o no clasificada como pobre. Además, se filtra la base excluyendo a los menores de edad y se crea otra variable que indica si la persona está o no empleada.