7.5 Inferencia sobre los parámetros del Modelo
Una vez evaluado el correcto ajuste del modelo utilizando las metodologías vistas anteriormente y corroborando las propiedades distribucionales de los errores y, por ende, de la variable respuesta \(y\), el paso siguiente es verificar si los parámetros estimados son significativos y si las covariables utilizadas para ajustar el modelo aportan valor en la explicación y/o predicción de la variable de estudio y el fenómeno de interés.
Dadas las propiedades distribucionales de los estimadores de los coeficientes de regresión, un estadístico de prueba natural para evaluar la significación de dicho parámetro se basa en la distribución t-student y se describe a continuación:
\[ t = \frac{\hat{\beta}_{k}-\beta_{k}}{se(t(\hat{\beta}_{k})}\sim t_{n-p} \]
Donde \(p\) es el número de parámetros del modelo y \(n\) el tamaño de la muestra de la encuesta. En este sentido, el estadístico de prueba anterior evalúa las hipótesis \(H_{0}:\beta_{k}=0\) versus la alternativa \(H_{1}:\beta_{k}\neq0\). Asimismo, se puede construir un intervalo de confianza al \((1-\alpha)\times100\%\) para \(\beta_{k}\), el cual está dado por:
\[ \hat{\beta}_{k}\pm t_{1-\frac{\alpha}{2},\,df}\,se(t(\hat{\beta}_{k}) \]
Donde, los grados de libertad (\(df\)) para el intervalo en una encuesta de hogares (muestras complejas) está dado por el número de conglomerados finales de la primera etapa menos el número de estratos de la etapa primaria \((t(df=\sum_{h}a_{h}-H)\).
Para la aplicación de las temáticas vistas (juzgamiento de la prueba de hipótesis de significación y construcción de los intervalos de confianza para los parámetros) utilizaremos el modelo que se ha venido trabajando como ejemplo y aplicaremos las funciones summary.svyglm
para las pruebas t y confint.svyglm
para los intervalos de confianza como sigue:
##
## Call:
## svyglm(formula = Income ~ Expenditure + Zone + Sex + Age2, design = diseno_qwgt)
##
## Survey design:
## Called via srvyr
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 72.69927 68.14862 1.07 0.288
## Expenditure 1.18859 0.21578 5.51 2.2e-07 ***
## ZoneUrban 70.97453 42.13154 1.68 0.095 .
## SexMale 20.93437 15.99093 1.31 0.193
## Age2 0.00824 0.00564 1.46 0.147
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 122148)
##
## Number of Fisher Scoring iterations: 2
2.5 % | 97.5 % | |
---|---|---|
(Intercept) | -62.2900 | 207.6886 |
Expenditure | 0.7612 | 1.6160 |
ZoneUrban | -12.4799 | 154.4290 |
SexMale | -10.7406 | 52.6093 |
Age2 | -0.0029 | 0.0194 |
De lo anterior se puede observar que, con una confianza del 95%, la variable Expenditure resulta ser significativa para la explicación del fenómeno de interés y ese mismo resultado lo reflejan los intervalos de confianza, puesto que no contienen al cero.