7.2 Estimación de los parámetros en un modelo de regresión con muestras complejas.

Una vez se establecen los supuestos del modelo y las características distribucionales de los errores, el paso siguientes es el proceso de estimación de los parámetros. A modo ilustrativo e introductorio, si en lugar de observar una muestra de tamaño \(n\) de los \(N\) elementos de población se hubiera realizado un censo completo, el parámetro de regresión de población finita \(\beta_{1}\) podría calcularse como sigue:

\[ \beta_{1} =\frac{\sum_{i=1}^{N}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{\sum_{i=1}^{N}(X_{i}-\bar{X})^{2}} \]

Ahora bien, cuando se desea estimar los parámetros de un modelo de regresión lineal, pero considerando que la información observada proviene de encuestas con muestras complejas, se altera el enfoque estándar que se le da a la estimación de coeficientes de regresión y sus errores estándar. La principal razón por la que los métodos de estimación de parámetros de los coeficientes de regresión cambian es que la información recolectada por medio de una encuesta compleja generalmente no tiene una idéntica distribución, y tampoco se puede sostener el supuesto de independencia, dado que el diseño muestral así es planeado (dado que los diseños complejos en su mayoría contienen estratificación, conglomerados, probabilidades de selección desiguales, etc.).

En este contexto, al ajustar modelos de regresión con este tipo de conjuntos de datos, el uso de estimadores convencionales que se pueden derivar por los m{etodos tradicionales (como máxima verosimilitud, por ejemplo) induciran sesgo puesto que, con estas metodología siempre se está asumiendo que los datos son independientes e idénticamente distribuidos y que provienen de alguna distribución de probabilidad (binomial, Poisson, exponencial, normal, etc.). En su lugar, según Wolter (2007), se emplean métodos no paramétricos robustos basados en linealización de Taylor o métodos de estimación de la varianza usando replicación (Jackknife, bootstrapping, etc) para eliminar el sesgo al incluir el diseño de muestreo en los análisis.

Con fines ilustrativos, se mostrará la estimación del parámetro \(\beta_{1}\) y su varianza para una regresión lineal simple. La extensión a la estimación de los parámetros de un modelo de regresión múltiple, algebraicamente es compleja y se sale del contexto de este libro. A continuación, se presenta la estimación de la pendiente y su varianza en un modelo de regresión lineal simple:

\[ \hat{\beta_{1}}={\sum_{h}^{H}\sum_{\alpha}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}(y_{h\alpha i}-\hat{\bar{y}}_{\omega})(x_{h\alpha i}-\hat{\bar{x}}_{\omega})}/{ \sum_{h}^{H}\sum_{\alpha}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}(x_{h\alpha i}-\hat{\bar{x}}_{\omega})^{2}} \]

Como se puede observar en la ecuación anterior, el estimador del parámetro es un cociente de totales, por ende, su varianza está dada por:

\[ var(t(\hat{\beta_{1}}) = \frac{var(t(\hat{t}_{xy})+\hat{\beta}_{1}^{2}var(t(\hat{t}_{x^{2}})-2\hat{\beta}_{1}cov(t(\hat{t}_{xy},\hat{t}_{x^{2}})}{(t(\hat{t}_{x^{2}})^{2}} \]

A modo de generalización, según Kish y Frankel (1974), la estimación de la varianza de los coeficientes en un modelo de regresión lineal múltiple, los métodos de aproximación requieren totales ponderados para los cuadrados y productos cruzados de todas las combinaciones \(y\) y \(x = {1 x_{1} … x_{p}}\). A continuación, se presenta la estimación de estas varianzas:

\[\begin{eqnarray*} var(t(\hat{\beta})=\hat{\Sigma}(t(\hat{\beta}) & = & (t[\begin{array}{cccc} var(t(\hat{\beta}_{0}) & cov(t(\hat{\beta}_{0},\hat{\beta}_{1}) & \cdots & cov(t(\hat{\beta}_{0},\hat{\beta}_{p})\\ cov(t(\hat{\beta}_{0},\hat{\beta}_{1}) & var(t(\hat{\beta}_{1}) & \cdots & cov(t(\hat{\beta}_{1},\hat{\beta}_{p})\\ \vdots & \vdots & \ddots & \vdots\\ cov(t(\hat{\beta}_{0},\hat{\beta}_{p}) & cov(t(\hat{\beta}_{1},\hat{\beta}_{p}) & \cdots & var(t(\hat{\beta}_{p}) \end{array}\right] \end{eqnarray*}\]

Para ejemplificar los conceptos trabajados hasta este momento, se tomará la misma base de ejemplo y se inicia con el cargue de las librerías, la base de datos y la definición del diseño de muestreo:

knitr::opts_chunk$set(warning = FALSE,
                      message = FALSE,
                      error = FALSE)

options(digits = 4)
options(tinytex.verbose = TRUE)
library (survey)
library(srvyr)
library(convey)
library(TeachingSampling)
library(printr)
library(stargazer)
library(jtools)
library(broom)
library(tidyverse)
library(ggpmisc)

data(BigCity, package = "TeachingSampling")
encuesta <- readRDS("Data/encuesta.rds") %>% 
  mutate(Age2 = I(Age ^ 2))

library(srvyr)
diseno <- encuesta %>%
  as_survey_design(
    strata = Stratum,
    ids = PSU,
    weights = wk,
    nest = T
  )

Para efectos de los ejemplos y como se ha hecho en anteriores ocasiones, se divide la muestra en sub-grupos de la encuesta como sigue:

sub_Urbano <- diseno %>%  filter(Zone == "Urban")
sub_Rural  <- diseno %>%  filter(Zone == "Rural")
sub_Mujer  <- diseno %>%  filter(Sex == "Female")
sub_Hombre <- diseno %>%  filter(Sex == "Male")

En este capítulo se ajustarán los modelos de regresión usando la base de datos de ejemplo que se ha venido trabajando en capítulos anteriores. Puesto que, en modelos de regresión, se utiliza muy frecuente el recurso gráfico. A continuación, se define un tema estándar para generar gráficos con el mismo estilo unificado.

Para observar que existe una correlación entre el ingreso y el gasto, las cuales son las variables que se utilizarán para el ajuste de los modelos, se construye un diagrame de puntos usando la librería ggplot. Una vez revisada la información poblacional, se utilizará la información obtenida de la muestra para estimar los parámetros y con ello analizar qué tan buenas son las estimaciones. A continuación, se presenta la sintaxis que permite construir el scatterplot para los datos de la muestra.

plot_sin <- ggplot(data = encuesta,
            aes(x = Expenditure, y = Income)) +
            geom_point() +
            geom_smooth(method = "lm",
            se = FALSE, formula = y ~ x) + theme_cepal()

plot_sin + stat_poly_eq(formula = y~x, aes(label = paste(..eq.label..,
     ..rr.label.., sep = "~~~"), size = 5), parse = TRUE)

Como se puede observar, los datos de la muestra tienen una tendencia lineal aunque un poco dispersa a medida que crecen los gastos en las familias. Una vez hecho el análisis gráfico, se procede a ajustar los modelos de regresión lineal. Para comparar el efecto que tiene hacer un correcto uso de los factores de expansión del diseño, primero se ajustará un modelo sin tener encuesta dichos factores como se muestra a continuación:

fit_sinP <- lm(Income ~ Expenditure, data = encuesta)
summary(fit_sinP)

## 
## Call:
## lm(formula = Income ~ Expenditure, data = encuesta)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2318.3  -189.2   -55.7   130.0  1993.2 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 121.5159    11.4080    10.7   <2e-16 ***
## Expenditure   1.2201     0.0245    49.7   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 345 on 2603 degrees of freedom
## Multiple R-squared:  0.487,  Adjusted R-squared:  0.487 
## F-statistic: 2.47e+03 on 1 and 2603 DF,  p-value: <2e-16

Para el modelo ajustado sin factores de expansión, el \(\hat{\beta}_{0}\) es 121.52 y el \(\hat{\beta}_{1}\) asociado a la variable gastos es 1.22. Se recalca que la anterior salida produce valores estimados sesgados y su ajuste es simplemente para fines ilustrativos.

Por otro lado, hacer un diagrama de dispersión con los datos de la encuesta utilizando los factores de expansión del diseño, es posible usando el argumento mapping = aes(weight = wk) en la función geom_smoothcomo sigue:

plot_Ponde <- ggplot(data = encuesta,
                     aes(x = Expenditure, y = Income)) +
  geom_point(aes(size = wk)) +
  geom_smooth(
    method = "lm",
    se = FALSE,
    formula = y ~ x,
    mapping = aes(weight = wk)
  ) + 
  theme_cepal()

plot_Ponde + stat_poly_eq(
  formula = y ~ x,
  aes(
    weight = wk,
    label = paste(..eq.label.., ..rr.label.., sep = "~~~")
  ),
  parse = TRUE,
  size = 5
)

Cuando los datos provienen de levantamientos complejos como los son las encuestas de hogares, ajustar modelos de regresión incluyendo el diseño de muestreo complejo (factores de expansión, estratos y unidades primarias de muestreo) es crucial al analizar las relaciones entre la variable dependiente y las covariables. Sin este tipo de ajustes, los resultados pueden sesgarse y no representar de manera adecuada la realidad, puesto que al ajustar un modelo de regresión ingenuamente, es probable que se produzca un sesgo en los resultados debido a la estructura de muestreo. Los factores de expansión ayudan a corregir este sesgo, garantizando que los resultados sean generalizables a la población de interés. Por otro lado, al ajustar modelos de regresión incluyendo el diseño de muestreo, se mejora la precisión de las estimaciones, lo cual es importante cuando se trabaja con subpoblaciones específicas o grupos minoritarios, donde las muestras pueden ser más pequeñas y la variabilidad puede ser mayor. De esta forma, la estimación de varianzas y errores estándar se torna más precisa, lo que se traduce en intervalos de confianza más exactos y pruebas de hipótesis más robustas.

En resumen, ajustar modelos de regresión utilizando factores de expansión en el análisis de datos provenientes de encuestas complejas es esencial para garantizar la validez, representatividad y precisión de los resultados, cumpliendo con estándares estadísticos y éticos. En este sentido, para ajustar modelos teniendo en cuenta los factores de expansión y el diseño de muestreo complejo, se debe recurrir a la función svyglm de la librería survey. En el siguiente ejemplo se ilustra el ajuste de un modelo de regresión con datos de encuestas complejas en donde la variable dependiente es el ingreso en función del gasto.

fit_svy <- svyglm(Income ~ Expenditure,
                  design = diseno)
fit_svy

## Stratified 1 - level Cluster Sampling design (with replacement)
## With (238) clusters.
## Called via srvyr
## Sampling variables:
##  - ids: PSU
##  - strata: Stratum
##  - weights: wk
## 
## Call:  svyglm(formula = Income ~ Expenditure, design = diseno)
## 
## Coefficients:
## (Intercept)  Expenditure  
##      103.14         1.26  
## 
## Degrees of Freedom: 2604 Total (i.e. Null);  118 Residual
## Null Deviance:       6.35e+08 
## Residual Deviance: 3.11e+08  AIC: 38300

Obteniendo estimaciones para el intercepto de \(\hat{\beta}_{0} = 103.14\) y para la pendiente de \(\hat{\beta}_{1} = 1.26\).

References

Kish, Leslie, y Martin R Frankel. 1974. «Inference from complex samples». Journal of the Royal Statistical Society, Series B 36: 1-37.

Wolter, Kirk M. 2007. Introduction to variance estimation. 2nd ed. Statistics for social y behavioral sciences. Springer.