5.7 Diagnóstico del modelo

En el análisis de encuestas de hogares, cuando se ajusta un modelo estadístico, es crucial realizar verificaciones de calidad que garanticen la validez de las conclusiones. La literatura metodológica destaca que un modelo bien especificado no solo depende de la elección de las covariables, sino también de que se cumplan los supuestos básicos que aseguran la coherencia de los resultados (Téllez, 2016).

Entre los elementos que deben revisarse al aplicar un modelo de regresión lineal en encuestas complejas se encuentran los siguientes:

  • Adecuación del ajuste: comprobar si el modelo logra explicar una proporción significativa de la variabilidad de la variable de interés y si las predicciones se ajustan razonablemente a los datos observados.
  • Normalidad de los errores: verificar si los errores se distribuyen aproximadamente de manera normal, lo que garantiza la validez de las pruebas de significancia.
  • Homogeneidad de la varianza (homocedasticidad): confirmar que la variabilidad de los errores se mantenga constante a lo largo de los valores de las covariables. La presencia de heterocedasticidad puede sesgar las inferencias.
  • Independencia de los errores: examinar si los errores son independientes entre sí, evitando correlaciones que comprometan la validez de las pruebas estadísticas.
  • Casos influyentes: identificar observaciones que ejercen un efecto desproporcionado en la estimación del modelo, lo que podría distorsionar los resultados.
  • Datos atípicos (outliers): detectar unidades que se apartan significativamente de la tendencia general de la muestra y que pueden afectar el ajuste del modelo.

En el contexto de encuestas complejas, estas verificaciones adquieren una relevancia particular. Problemas como la multicolinealidad, la falta de independencia entre observaciones o la presencia de valores extremos pueden acentuarse debido al diseño muestral (estratificación, conglomeración y ponderación). Por ello, los procedimientos de diagnóstico no deben limitarse a la revisión de los supuestos clásicos, sino también considerar las especificidades del diseño.

La aplicación sistemática de estas pruebas diagnósticas permite evaluar la solidez del modelo, incrementar la confianza en las inferencias y garantizar que los resultados derivados sean representativos y útiles para el análisis de políticas públicas o para la investigación social aplicada.

5.7.1 Coeficiente de determinación

Una medida clásica para evaluar el ajuste de un modelo de regresión es el coeficiente de determinación (\(R^{2}\)), también conocido como coeficiente de correlación múltiple. Este indicador estima la proporción de la varianza de la variable dependiente que es explicada por el modelo, y sus valores oscilan entre 0 y 1. Cuanto más próximo esté de 1, mayor será la proporción de variabilidad explicada; por el contrario, un valor cercano a 0 refleja que el modelo aporta poca capacidad explicativa.

No obstante, la interpretación de \(R^{2}\) varía según el campo disciplinar. En ciencias físicas, es común obtener valores superiores al 0.98 o 0.99, mientras que en ciencias químicas suelen alcanzarse niveles por encima de 0.90. En contraste, en ciencias sociales y, en general, en estudios con poblaciones humanas, incluso los mejores modelos explicativos rara vez superan un rango del 20 % al 40 % de la variabilidad de la variable de interés (Heringa). Este contraste resalta que la magnitud de \(R^{2}\) no debe interpretarse de manera absoluta, sino en función del contexto y la naturaleza de los datos analizados.

El coeficiente de determinación se calcula a partir de las sumas de cuadrados totales y de error, de la siguiente manera:

\[ R^{2} = 1 - \frac{SSE}{SST}, \]

donde \(SST\) representa la suma de cuadrados totales y \(SSE\) la suma de cuadrados del error.

En encuestas con diseños de muestreo complejos, es necesario ajustar esta medida para reflejar la estructura del diseño y los pesos muestrales. En este caso, el estimador ponderado se define como:

\[ \hat{R}_\omega^2 = 1 - \frac{(\widehat{SSE})_\omega}{(\widehat{SST})_\omega}, \]

donde \((\widehat{SSE})_\omega\) corresponde a la suma ponderada de errores al cuadrado, calculada como:

\[ (\widehat{SSE})_\omega = \sum_{h=1}^{H} \sum_{i \in s_{1h}} \sum_{k \in s_{hi}} w_{hik} \,(y_{hik} - x_{hik}\hat{\beta})^2, \]

y \((\widehat{SST})_\omega\) representa la suma total ponderada de cuadrados, definida por:

\[ (\widehat{SST})_\omega = \sum_{h=1}^{H} \sum_{i \in s_{1h}} \sum_{k \in s_{hi}} w_{hik}\,(y_{hik} - \hat{\bar{Y}})^2. \]

Finalmente, dado que \(R^{2}\) tiende a incrementarse a medida que se incluyen más variables en el modelo, se recomienda emplear también el coeficiente de determinación ajustado (\(R_{adj}^{2}\)), que incorpora una corrección en función del número de covariables y del tamaño de la muestra:

\[ R_{adj}^{2} = 1 - \frac{(n-1)}{(n-p)} \,(1 - R_{\omega}^{2}), \]

donde \(n\) es el tamaño muestral efectivo y \(p\) el número de parámetros estimados.

Este ajuste permite una comparación más justa entre modelos con diferente número de predictores y es particularmente útil en el análisis de encuestas, donde la complejidad del diseño y el uso de ponderaciones pueden influir notablemente en la magnitud de \(R^{2}\).

Para continuar con los modelos ajustados en la sección anterior, se procede a estimar los \(R^{2}\) utilizando R. Inicialmente, se procede a estimar los parámetros del modelo utilizando la función svyglm de survey como se mostró anteriormente y también, se ajusta un modelo solo con el intercepto para obtener la estimación de la SST:

fit_svy <- svyglm(Income ~ Expenditure,
                  design = diseno)

modNul <- svyglm(Income ~ 1, design = diseno)

s1 <- summary(fit_svy)
s0 <-summary(modNul)

WSST<- s0$dispersion
WSSE<- s1$dispersion

Por tanto, la estimación del \(R^{2}\) es:

R2 = 1- WSSE/WSST
R2
##      variance    SE
## [1,]    0.509 19005

y, para estimar el \(R_{adj}^{2}\) se requiere definir el diseño muestral pero incluyendo los q-weigthed (Pffeferman, 2011). A continuación, se muestra los pasos para encontrar los q-weigthed:

  • Ajustar un modelo de regresión a los pesos finales de la encuesta utilizando las variables predictoras en el modelo de regresión de interés.
fit_Nul <- lm(wk ~ 1, data = encuesta)
  • Obtener las predicciones de los pesos de la encuesta para cada caso como una función de las variables predictoras en el conjunto de datos
qw <- predict(fit_Nul)
  • Dividir los pesos finales de la encuesta por los valores predichos en el paso anterior:
encuesta %<>% mutate(wk1 = wk/qw)
  • Usar los nuevos pesos obtenidos para el ajuste de los modelos de regresión:
diseno_qwgt <- encuesta %>%
  as_survey_design(
    strata = Stratum,
    ids = PSU,
    weights = wk1,
    nest = T)

Ahora bien, una vez definido el diseño muestral con los nuevos pesos q-weigthed, se procede a calcular el \(R_{adj}^{2}\) como sigue:

n = sum(diseno_qwgt$variables$wk)
p<- 2
R2Adj = 1-( ( (n-1)/(n-p) )*R2 )
R2Adj
##      variance    SE
## [1,]    0.491 19005

Como se puede observar, el \(R_{adj}^{2}\) es un poco más bajo que el \(R^{2}\) y cercanos al 50% que como se comentó anteriormente, dependiendo del contexto del problema se podrá concluir si es grande o pequeño.

Después de realizar la comparación entre las diferentes formas de estimar los coeficientes del modelo se opta por la metodología consolidadas en svyglm:

diseno_qwgt %<>% mutate(Age2 = Age^2)
mod_svy <- svyglm( Income ~ Expenditure + Zone + Sex + Age2 ,
                       design = diseno_qwgt)
s1 <- summary(mod_svy)
s0 <- summary(modNul)

mod_svy

Stratified 1 - level Cluster Sampling design (with replacement) With (238) clusters. Called via srvyr Sampling variables: - ids: PSU - strata: Stratum - weights: wk1

Call: svyglm(formula = Income ~ Expenditure + Zone + Sex + Age2, design = diseno_qwgt)

Coefficients: (Intercept) Expenditure ZoneUrban SexMale Age2
62.18419 1.22548 63.46000 21.73256 0.00852

Degrees of Freedom: 2604 Total (i.e. Null); 115 Residual Null Deviance: 6.35e+08 Residual Deviance: 3.08e+08 AIC: 38300

stargazer(mod_svy, header = FALSE,single.row = T,
           title = "Modelo propuesto",
           type = "latex",  omit.stat=c("bic", "ll"))

5.7.2 Diagnóstico de los residuales

En el diagnóstico de los modelos, el análisis de los residuales constituye una herramienta fundamental. Bajo el supuesto de que el modelo ajustado es adecuado, los residuales proporcionan una estimación de los errores y, en consecuencia, permiten evaluar la validez de los supuestos del modelo. Un examen cuidadoso de los mismos ayuda al investigador a determinar si el procedimiento de ajuste ha respetado dichos supuestos o, por el contrario, si alguno de ellos ha sido violado, en cuyo caso sería necesario revisar la especificación del modelo o incluso replantear el método de ajuste.

En encuestas con diseños muestrales complejos, los residuales de Pearson son una forma habitual de evaluar discrepancias entre los valores observados y los esperados. Se definen como:

\[ r_{p_{i}} = \left(y_{i} - \mu_{i}(\hat{\beta}_{\omega})\right) \sqrt{\frac{\omega_{i}}{V(\hat{\mu}_{i})}}, \]

donde \(\mu_{i}\) representa el valor esperado de \(y_{i}\) bajo el modelo ajustado, \(\omega_{i}\) es el peso muestral correspondiente al individuo \(i\) y \(V(\hat{\mu}_{i})\) es la función de varianza del resultado.

5.7.2.1 Residuos estandarizados

En términos generales, los residuos corresponden a la diferencia entre los valores observados y los estimados por el modelo. El análisis de estos residuos es esencial para verificar el cumplimiento de los supuestos de la regresión. Una práctica común consiste en graficar los residuos frente a los valores predichos o frente a las variables independientes. En un modelo correctamente especificado, la nube de puntos resultante debería mostrar un patrón aleatorio; la presencia de formas sistemáticas puede indicar problemas como heterocedasticidad (varianza no constante) o relaciones no lineales no captadas por el modelo.

El análisis gráfico es un procedimiento ampliamente utilizado para identificar posibles deficiencias en el modelo. En particular, los gráficos de residuos frente a valores predichos son una de las herramientas más informativas para evaluar la adecuación del ajuste. La inspección visual de estos gráficos ayuda a determinar si el modelo cumple con los supuestos de normalidad e independencia de los errores.

En el contexto de encuestas complejas, los residuos pueden expresarse de la siguiente manera:

\[ r_{(p_k)} = \frac{y_k - \hat{\mu}_k}{\sqrt{V(\hat{\mu}_k)/w_k}}, \]

donde \(\hat{\mu}_k\) es el valor predicho de \(y_k\), \(w_k\) es el peso muestral de la unidad \(k\) y \(V(\hat{\mu}_k)\) corresponde a la función de varianza asociada. Estos residuos ponderados se emplean para evaluar tanto la normalidad como la homogeneidad de la varianza en los errores.

5.7.2.2 Evaluación de la homocedasticidad

Uno de los supuestos más relevantes en los modelos de regresión es la constancia de la varianza de los errores (homocedasticidad). Si este supuesto se viola, los estimadores de los parámetros del modelo permanecen insesgados y consistentes, pero pierden eficiencia, es decir, ya no alcanzan la menor varianza posible entre todos los estimadores insesgados.

Para evaluar este aspecto, se recomienda representar los residuos frente a los valores predichos \(\hat{y}\) o frente a alguna covariable \(x_j\). La aparición de un patrón sistemático (por ejemplo, forma de embudo o curvaturas) es un indicio de heterocedasticidad. En tales casos, pueden considerarse estrategias de corrección, como transformaciones de la variable dependiente, inclusión de términos adicionales en el modelo o el uso de estimadores robustos de varianza.

Otra definición que se debe tener en consideración para el análisis de los residuales es el de la matriz hat, la cual se estima como:

\[ H = W^{1/2}X\left(X'WX\right)^{-1}X'W^{1/2} \] donde,

\[ W = diag\left\{ \frac{\omega_{1}}{V\left(\mu_{1}\right)\left[g'\left(\mu_{1}\right)\right]^{2}},...,\frac{\omega_{n}}{V\left(\mu_{n}\right)\left[g'\left(\mu_{n}\right)\right]^{2}}\right\} \] \(W\) es una matriz diagonal de \(n\times n\) y \(g()\) es la función de enlace del modelo lineal generalizado.

5.7.3 Observaciones influyentes

En el análisis diagnóstico de modelos, una técnica fundamental consiste en la identificación de observaciones influyentes. Estas son unidades muestrales cuyo impacto sobre el ajuste del modelo es desproporcionado en comparación con el resto de la muestra. Es importante destacar que una observación influyente no necesariamente corresponde a un valor atípico: mientras que un atípico puede estar alejado del patrón general de los datos, su efecto sobre el ajuste puede ser mínimo. Por el contrario, una observación influyente puede alterar de manera significativa las estimaciones de los parámetros, incluso si no luce atípica.

Una observación se considera influyente si su exclusión provoca cambios sustanciales en el ajuste global del modelo o en parámetros específicos. Para detectar este tipo de observaciones es esencial precisar el tipo de influencia que se desea evaluar, ya que una unidad puede ser influyente sobre la estimación de los parámetros pero no sobre la varianza del error, o viceversa.

En el caso de encuestas complejas, este análisis requiere especial atención, pues los pesos muestrales, las estratificaciones y las unidades primarias de muestreo (PSU) amplifican o reducen la influencia de cada observación en comparación con los modelos ajustados bajo supuestos de muestreo simple aleatorio. Para este propósito, la literatura recomienda el uso de herramientas adaptadas a diseños muestrales complejos, tales como el paquete svydiags en R (véase Valliant, 2024), que implementa diagnósticos extendidos compatibles con datos de encuestas.

A continuación, se describen los principales estadísticos utilizados para la detección de observaciones influyentes en modelos de regresión, con sus respectivas adaptaciones al contexto de encuestas complejas:

5.7.3.1 Distancia de Cook

La distancia de Cook mide el efecto de eliminar la observación i sobre el ajuste global del modelo. Evalúa simultáneamente el tamaño del residual, la varianza estimada y el apalancamiento de la observación. En el contexto de encuestas complejas, su cálculo se adapta incorporando los pesos muestrales:

\[ c_{i}=\frac{w_{i}^{*}w_{i}e_{i}^{2}}{p\phi V\left(\hat{\mu}_{i}\right)\left(1-h_{ii}\right)^{2}}\boldsymbol{x}_{i}^{t}\left[\widehat{Var}\left(U_{w}\left(\hat{\boldsymbol{\beta}}_{w}\right)\right)\right]^{-1}\boldsymbol{x}_{i} \]

donde:

  • \(w_i^*\) son los pesos de la encuesta,
  • \(e_i\) es el residual de la observación i,
  • \(p\) es el número de parámetros del modelo,
  • \(\phi\) es el parámetro de dispersión en el modelo lineal generalizado,
  • \(h_{ii}\) corresponde al apalancamiento de la observación i,
  • \(\widehat{Var}\left(U_{w}\left(\hat{\boldsymbol{\beta}}_{w}\right)\right)\) es la varianza linealizada de la ecuación de puntuación.

Para evaluar su magnitud, se compara \(c_i\) con puntos de referencia. Una aproximación es el estadístico:

\[ \frac{\left(df-p+1\right)\times c_{i}}{df} \doteq F_{\left(p,df-p\right)} \]

donde \(df\) son los grados de libertad basados en el diseño. En la práctica, la literatura (Heeringa; Téllez, 2016) suele considerar como observaciones influyentes aquellas cuyo \(c_i\) excede valores críticos como 2 o 3.

5.7.3.2 \(D_f\text{Beta}\)

El estadístico \(D_f \text{Beta}_{(i)}\) cuantifica el cambio en los coeficientes de regresión cuando la observación i es eliminada:

\[ D_f \text{Beta}_{(i)} = \hat{\boldsymbol{\beta}}-\hat{\boldsymbol{\beta}}_{\left(i\right)}=\frac{\boldsymbol{A}^{-1}\boldsymbol{X}_{\left(i\right)}^{t}\hat{e}_{i}w_{i}}{1-h_{ii}} \]

donde \(\boldsymbol{A} =\boldsymbol{X}^{t}\boldsymbol{WX}\) y \(\hat{\boldsymbol{\beta}}_{(i)}\) es el vector de parámetros estimados sin la observación i.

En su forma estandarizada:

\[ D_f Betas_{\left(i\right)}=\frac{{c_{ji}e_{i}}\big/{\left(1-h_{ii}\right)}}{\sqrt{v\left(\hat{\beta}_{j}\right)}} \]

La interpretación es directa: una observación es influyente sobre el coeficiente \(\hat{\beta}*j\) si \(|D_f Betas*{(i)j}|\geq \frac{z}{\sqrt{n}}\), con \(z=2\) o \(3\), o alternativamente si supera el umbral \(t_{0.025,n-p}/\sqrt{n}\).

5.7.3.3 \(D_f \text{Fits}\)

Finalmente, el estadístico \(D_f \text{Fits}_{(i)}\) mide la influencia de una observación sobre el ajuste total del modelo. Se calcula como:

\[ D_{f}Fits_{\left(i\right)}= \frac{h_{ii}e_{i}\big/\left(1-h_{ii}\right)}{\sqrt{v\left(\hat{\beta}_{j}\right)}} \]

La observación i se considera influyente si:

\[ |D_f Fits_{(i)}| \geq z\sqrt{\frac{p}{n}} \quad \text{con } z=2 \text{ o } 3 \]

Por otro lado, un análisis que es de vital importancia en el ajuste de modelos de regresión más específicamente en el análisis de residuales es el de varianza constante en los errores. La principal consecuencia de no tener en cuenta la violación de este supuesto es que los estimadores pierden eficiencia. Si el supuesto de varianza constante no se cumple, los estimadores siguen siendo insesgados y consistentes, pero dejan de ser eficientes, es decir, dejan de ser los mejores en cuanto a que ya no tienen la menor varianza entre todos los estimadores insesgados. Como consecuencia de lo anterior, los intervalos de confianza serán más amplios y las pruebas t y F darán resultados imprecisos (Tellez, 2016).

Una de las formas de analizar el supuesto de varianzas constantes en los errores es hacerlo de manera gráfica. Para ello, se grafica los residuos del modelo contra \(\hat{y}\) o los residuos del modelo contra \(X_{i}\). Si al realizar estos gráficos se logra evidenciar un patrón (funciones cuadráticas, cúbicas, logarítmicas, etc), se puede decir que la varianza de los errores no es constante.

Otro supuesto que se debe revisar en los errores al momento de realizar ajustes es la normalidad en lo errores. Una forma muy común para hacer dicha evaluación es realizar un gráfico cuantil-cuantil normal o QQplot. El QQplot es una gráfica de cuantiles para los residuos observados frente a los calculados a partir de una distribución normal teórica que tiene la misma media y varianza que la distribución de los residuos observados. Por lo tanto, una línea recta de 45° en este gráfico sugeriría que la normalidad es una suposición razonable para los errores aleatorios en el modelo.

A manera de ejemplificar los conceptos vistos, se van a utilizar los modelos previamente ajustados. En primero instancia, el análisis del modelo se centrará en los supuestos de normalidad y varianza constante en los errores. Primero, se realizará el análisis de la normalidad en los errores de manera gráfica como se muestra a continuación:

par(mfrow = c(2,2))
plot(mod_svy)

Como se puedo observar en el QQplot, hay evidencia gráfica de que los errores no se distribuyen según una distribución normal.

La librería svydiags está pensada en ayudar en el diagnostico de modelos de regresión lineal, siendo una extensión más para complementar el paquete survey. Con las librerías svydiags se extraen los residuales estandarizados como sigue:

library(svydiags)
stdresids = as.numeric(svystdres(mod_svy)$stdresids)
diseno_qwgt$variables %<>% mutate(stdresids = stdresids)

Podemos hacer el análisis de normalidad también por medio del histograma de los residuales estandarizados como sigue:

ggplot(data = diseno_qwgt$variables,
       aes(x = stdresids)) +
  geom_histogram(aes(y = ..density..),
                 colour = "black",
                 fill = "blue", alpha = 0.3) +
  geom_density(size = 2, colour = "blue") +
  geom_function(fun = dnorm, colour = "red",
                size = 2) +
  theme_cepal()+labs(y = "")

y como se puede observar gráficamente los errores no siguen una distribución normal.

Por otro lado, el otro análisis que se realiza de manera gráfica es el de varianzas constantes el cual se realizará a continuación:

Primero, agreguemos las predicciones a la base de datos para poder realizar las gráficas.

library(patchwork)
diseno_qwgt$variables %<>%
  mutate(pred = predict(mod_svy))
g2 <- ggplot(data = diseno_qwgt$variables,
       aes(x = Expenditure, y = stdresids))+
  geom_point() +
  geom_hline(yintercept = 0) + theme_cepal()
g3 <- ggplot(data = diseno_qwgt$variables,
       aes(x = Age2, y = stdresids))+
  geom_point() +
  geom_hline(yintercept = 0) + theme_cepal()
g4 <- ggplot(data = diseno_qwgt$variables,
       aes(x = Zone, y = stdresids))+
  geom_point() +
  geom_hline(yintercept = 0) + theme_cepal()
g5 <- ggplot(data = diseno_qwgt$variables,
       aes(x = Sex, y = stdresids))+
  geom_point() +  geom_hline(yintercept = 0) +
  theme_cepal()

(g2|g3)/(g4|g5)

Como se puede observar en las gráficas de gastos y edad, ambas muestran tendencias y no un comportamiento aleatorio. Por lo anterior, se puede decir que las varianzas no son constantes.

Otros de os análisis a realizar es revisar si existen datos influyentes en la base de datos. Para ejemplificar los conceptos definidos, se seguirán con los modelos ajustados en la sección anterior. Una vez ajustados estos modelos y verificados los supuestos, se procede a hacer el cálculo de la distancia de Cook’s usando la función svyCooksDdel paquete svydiags como sigue:

library(svydiags)
d_cook = data.frame(
   cook = svyCooksD(mod_svy),
     id = 1:length(svyCooksD(mod_svy)))

table(d_cook$cook>3)


ggplot(d_cook, aes(y = cook, x = id)) +
  geom_point() +
  theme_bw(20)

Como se puede observar, ninguna de las distancias de Cook’s es mayor a 3 por lo que, podemos decir que no existen observaciones influyentes.

Ahora bien, se desea observar si hay observaciones influyentes pero utilizando \(D_{f}Betas_{\left(i\right)j}\) se realiza con la función svydfbetas como se muestra a continuación:

d_dfbetas = data.frame(t(svydfbetas(mod_svy)$Dfbetas))
colnames(d_dfbetas) <- paste0("Beta_", 1:5)
d_dfbetas %>% slice(1:10L)
Beta_1 Beta_2 Beta_3 Beta_4 Beta_5
0.0006 -2e-04 0.0021 -0.0045 -0.0077
-0.0006 -1e-04 0.0014 0.0026 -0.0031
-0.0009 -1e-04 0.0009 0.0022 0.0008
-0.0004 -1e-04 0.0012 -0.0031 0.0007
-0.0009 0e+00 0.0008 0.0021 0.0014
0.0009 6e-04 -0.0036 -0.0063 0.0098
0.0027 4e-04 -0.0031 -0.0076 -0.0028
0.0011 3e-04 -0.0028 0.0077 -0.0043
0.0030 4e-04 -0.0030 -0.0078 -0.0051
-0.0003 4e-04 0.0012 -0.0037 -0.0040

Una vez calculado los \(D_{f}Betas_{\left(i\right)j}\) se procede a acomodar la salida con para verificar cuáles observaciones son influyentes. Para esto, de calcula el umbral (cutoff) para definir si es o no influyente la observación. Ese umbral es tomado de las salidas de la función svydfbetas. Por último, se genera una variable dicotómica que indique si la observación es o no influyente como se muestra a continuación:

d_dfbetas$id <- 1:nrow(d_dfbetas)
d_dfbetas <- reshape2::melt(d_dfbetas, id.vars = "id")
cutoff <- svydfbetas(mod_svy)$cutoff
d_dfbetas %<>% mutate( Criterio = ifelse(abs(value) > cutoff, "Si", "No"))

tex_label <- d_dfbetas %>%
  filter(Criterio == "Si") %>%
  arrange(desc(abs(value))) %>%
  slice(1:10L)
tex_label
id variable value Criterio
889 Beta_1 0.2781 Si
890 Beta_2 -0.2593 Si
891 Beta_1 0.2559 Si
889 Beta_2 -0.2537 Si
891 Beta_2 -0.2491 Si
890 Beta_1 0.2456 Si
2311 Beta_5 0.2056 Si
889 Beta_5 -0.1993 Si
890 Beta_5 -0.1788 Si
890 Beta_4 0.1616 Si

Como se pudo observar en la salida anterior hay varias observaciones que resultan influyentes dado el criterio del \(D_{f}Betas_{\left(i\right)j}\). A continuación, y de manera ilustrativa, se grafican los \(D_{f}Betas_{\left(i\right)j}\) y el umbral con el fin de ver de manera gráfica aquellas observaciones influyentes, teniendo en cuenta que, aquellos puntos rojos en la gráfica representan observaciones influyentes.

ggplot(d_dfbetas, aes(y = abs(value), x = id)) +
  geom_point(aes(col = Criterio)) +
  geom_text(data = tex_label,
            angle = 45,
            vjust = -1,
            aes(label = id)) +
  geom_hline(aes(yintercept = cutoff)) +
  facet_wrap(. ~ variable, nrow = 2) +
  scale_color_manual(
    values = c("Si" = "red", "No" = "black")) +
  theme_cepal()

Si el objetivo ahora es detectar observaciones influyentes pero considerando ahora la estadística \(D_{f}Fits_{\left(i\right)}\), se utiliza la función svydffits y se siguen los mismos pasos mostrados para el estadístico \(D_{f}Betas_{\left(i\right)j}\):

d_dffits = data.frame( dffits = svydffits(mod_svy)$Dffits,
                       id = 1:length(svydffits(mod_svy)$Dffits))

cutoff <- svydffits(mod_svy)$cutoff

d_dffits %<>% mutate(C_cutoff = ifelse(abs(dffits) > cutoff, "Si", "No"))
ggplot(d_dffits, aes(y = abs(dffits), x = id)) +
  geom_point(aes(col = C_cutoff)) +
  geom_hline(yintercept = cutoff) +
   scale_color_manual(
    values = c("Si" = "red", "No" = "black"))+
  theme_cepal()

Como se puede observar en el gráfico anterior, también hay observaciones influyentes utilizando \(D_{f}Fits_{\left(i\right)}\), las cuales se muestran en rojo en el gráfico.

Un último acercamiento que se trabajará en este texto para la detección de datos influyentes está encaminado al uso de la matriz H. En este sentido, la matriz asociada al Estimador de Pseudo Máxima Verosimilitud (PMLE) de \(\hat{\boldsymbol{B}}\) es \(\boldsymbol{H}=\boldsymbol{XA}^{-1}\boldsymbol{X}^{-t}\boldsymbol{W}\) cuya diagonal esta dado por \(h_{ii} = \boldsymbol{x_{i}^tA}^{-1}\boldsymbol{x_{i}}^{-t}w_{i}\). Utilizando la matriz H, una observación puede ser grande y, como resultado, influir en las predicciones, cuando un \(x_i\) es considerablemente diferente del promedio ponderado \(\bar{x}_w=\sum_{i\in s}w_{i}\boldsymbol{x_{i}}\big/\sum_{i\in s}w_i\). Según (Tellez, 2016) una observación es considerada grande si es mayor a tres veces el promedio de los \(h_{ii}\). A continuación, se muestra el procedimiento en R cuya función a utilizar es svyhat:

vec_hat <- svyhat(mod_svy, doplot = FALSE)
d_hat = data.frame(hat = vec_hat, id = 1:length(vec_hat))
d_hat %<>% mutate(C_cutoff = ifelse(hat > (3 * mean(hat)),"Si", "No"))

ggplot(d_hat, aes(y = hat, x = id)) +
  geom_point(aes(col = C_cutoff)) +
  geom_hline(yintercept = (3 * mean(d_hat$hat))) +
  scale_color_manual(
    values = c("Si" = "red", "No" = "black"))+
  theme_cepal()

Dado que esta última técnica es empírica, se puede observar en el gráfico anterior que hay varias observaciones posiblemente influyentes en el conjunto de datos de la muestra de hogares.