9.1 Modelo con intercepto aleatorio

En el análisis de los modelos multinivel hay dos tipos de estimaciones que son relevantes. La primera asociada con los coeficientes de regresión, generalmente denominados como los parámetros fijos del modelo; la segunda con las estimaciones de la varianza, generalmente denominadas parámetros aleatorios del modelo. Cualquier análisis de regresión multinivel siempre debe comenzar con la estimación de la varianza de ambos niveles para la variable dependiente.

El primer paso recomendado en el análisis de regresión multinivel consiste en una descomposición de la varianza de la variable dependiente en los diferentes niveles. Por ejemplo, asumiendo que la variable de interés es el ingreso de las personas y que existe una naturaleza jerárquica entre estas y el estrato, entonces la varianza del ingreso se puede descomponer en dos partes: la varianza dentro del estrato y la varianza entre los estratos. Estos dos componentes de varianza se pueden obtener en una regresión multinivel simple con un modelo nuelo dado por la siguiente expresión:

\[ y_{ij}=\beta_{0j}+\epsilon_{ij} \] En donde, el intercepto depende de manera jerárquica de los estratos; así:

\[ \beta_{0j}=\gamma_{00}+\tau_{0j} \] En las anteriroes expresiones, \(y_{ij}=\) representa los ingresos de la persona \(i\) en el estrato \(j\); \(\beta_{0j}\) es el intercepto en el estrato \(j\); \(\epsilon_{ij}\) es el residual de la persona \(i\) en el estrato \(j\); \(\gamma_{00}\) es el intercepto general y \(\tau_{0j}\) es el efecto aleatorio para el intercepto. Para este modelo se asume que,

\[ \tau_{0j}\sim N\left(0,\sigma_{\tau}^{2}\right) \] Además,

\[ \epsilon_{ij}\sim N\left(0,\sigma_{\epsilon}^{2}\right) \].

Cai (2013) afirma que existe evidencia suficiente de que las ponderaciones de muestreo deben usarse en el modelado multinivel para obtener estimaciones insesgadas. Actualmente, diferentes autores recomiendan diferentes enfoques sobre cómo usar los pesos de muestreo en modelos jerárquicos. Por ejemplo, Pfeffermann et al. (1998) y Asparouhov (2006) aconsejan utilizar un enfoque de pseudomáxima verosimilitud para calcular estimaciones dentro y entre los diferentes niveles para obtener estimaciones insesgadas.

A continuación se empezará a ejemplificar el ajuste de los modelos multinivel con encuestas complejas, iniciando con el ajuste de un modelo nulo. Para ajustar los modelos multinivel en R se usará la función lmer() de la librería lme4, usando para el ajuste la ponderación de Pfefferman, tal como se vio en los capítulos anteriores.

modwk <-
  lm(wk ~ Expenditure + Zone + Sex + Age2, data = encuesta)
wkpred <- predict(modwk)
encuesta %<>% mutate(qw = wk / wkpred)

El siguiente código en R utiliza la función lmer del paquete lme4 para ajustar un modelo multinivel nulo, en donde se quiere modelar el comportamiento de la variable Income en función de Stratum. El término (1 | Stratum) indica un efecto aleatorio para cada estrato de muestreo en la encuesta. Además, el argumento weights = qw especifica el vector de pesos de muestreo.

library(lme4)

mod_null  <- lmer(Income  ~ (1  |  Stratum),
                  data  =  encuesta,
                  weights  =  qw)

El siguiente código devuelve los coeficientes de los efecto aleatorios para cada estrato en el modelo multinivel nulo ajustado. Estos coeficientes proporcionar información sobre cómo varían los ingresos para diferentes niveles de la variable categórica estrato

head(coef(mod_null)$Stratum)
(Intercept)
idStrt001 639.4
idStrt002 508.4
idStrt003 485.3
idStrt004 963.4
idStrt005 520.1
idStrt006 440.9

Un concepto de interés en este tipo de análisis es la correlación intra-clásica (ICC, por sus siglas en inglés) que hace referencia a la proporción de la varianza total de una variable que se explica por las diferencias entre los grupos o niveles (estratos) en el modelo. En otras palabras, la ICC mide la similitud o correlación entre las observaciones dentro del mismo grupo o nivel en comparación con las observaciones de diferentes grupos. Esta cantidad se calcula como:

\[ \rho=\frac{\sigma_{\tau}^{2}}{\sigma_{\tau}^{2}+\sigma_{\epsilon}^{2}} \]

Una ICC alta indica que una gran proporción de la variación total de la variable se debe a las diferencias entre los grupos, lo que sugiere que los grupos son distintos entre sí y que los efectos de los grupos deben ser considerados en el modelo. Por otro lado, una ICC baja indica que la mayoría de la variación en la variable está dentro de los grupos y que los efectos de los grupos no son tan importantes para explicar la variabilidad en la variable.

Para efectos de ejemplificar el cálculo de la correlación intraclases, se utiliza la función icc de la librería performance. El cálculo es el siguiente:

performance::icc(mod_null)
ICC_adjusted ICC_unadjusted optional
0.3366 0.3366 FALSE

se puede observar que la correlación intraclase, utilizando el modelo nulo es de casi el 34%, porcentaje de varianza que se atribuye a la diferencia entre los estratos. Por otro lado, como el modelo que se está ajustando es el nulo, la predicción del ingreso para cualquier individuo en el mismo estrato será constante, como se muestra a continuación:

(tab_pred <- data.frame(Pred = predict(mod_null), 
           Income = encuesta$Income, 
           Stratum = encuesta$Stratum)) %>% distinct() %>% 
  slice(1:6L) # Son las pendientes aleatorias
Pred Income Stratum
1 639.4 409.87 idStrt001
6 639.4 823.75 idStrt001
10 639.4 90.92 idStrt001
13 639.4 135.33 idStrt001
18 639.4 336.19 idStrt001
22 639.4 1539.75 idStrt001

A continuación se muestra la estimación del ingreso en cada estrato de muestreo en relación con el ingreso. Se observa que la predicción en cada estrato es la misma (puntos del mismo color) y que existe una variación mayor a medida que el ingreso aumenta.

ggplot(data = tab_pred, aes(x = Pred, y = Income, colour = Stratum)) + 
  geom_point() + geom_abline(intercept = 0, slope = 1, colour = "red") +
  theme_bw() + theme(legend.position = "none") 

References

Asparouhov, Tihomir. 2006. «General multi-level modeling with sampling weights». Communications in Statistics—Theory and Methods 35 (3): 439-60.
Cai, Tianji. 2013. «Investigation of ways to handle sampling weights for multilevel model analyses». Sociological Methodology 43 (1): 178-219.
Pfeffermann, Danny, Chris J Skinner, Don J Holmes, Harvey Goldstein, y Jon Rasbash. 1998. «Weighting for unequal selection probabilities in multilevel models». Journal of the Royal Statistical Society: Series B (Statistical Methodology) 60 (1): 23-40.