7.3 La ponderación de Pfeffermann

Heeringa, West, y Berglund (2017) aborda el problema de cómo ponderar correctamente los modelos de regresión y aborda la cuestión de si se deben utilizar los factores de expansión para estimar los coeficientes de regresión al trabajar con datos de encuestas complejas. En este sentido, se debe saber que en la literatura especializada existen dos paradigmas esenciales:

  • El enfoque basado en el diseño de muestreo, el cual se ilustra en este documento, busca hacer inferencias sobre toda la población finita, y el uso de los factores de expansión garantiza que las estimaciones de los parámetros de regresión sean insesgadas. Sin embargo, el uso de los pesos de muestreo no protege contra la mala especificación del modelo; si el investigador ajusta un modelo mal especificado usando los factores de expansión, se estará calculando estimaciones insesgadas de los parámetros de regresión en un modelo que no describe bien las relaciones en la población finita.
  • El enfoque basado en modelos de población, que argumenta que el uso de los factores de expansión en la estimación no debería ser necesario si el modelo está correctamente especificado. Bajo este enfoque la inclusión de los pesos de muestreo sólo sirve para aumentar la varianza de los estimadores, induciendo errores estándar más grande de lo que deberían ser.

La elección entre estos dos enfoques debería depender de la sensibilidad de las inferencias a diferentes métodos de estimación. Es posible recomendar que se utilice software estadístico para ajustar modelos de regresión con y sin pesos de muestreo para evaluar la sensibilidad de los resultados. Si el uso de pesos produce estimaciones y conclusiones sustancialmente diferentes, se sugiere que el modelo podría estar mal especificado y se debería optar por las estimaciones ponderadas. Sin embargo, si el uso de pesos no altera significativamente las estimaciones de los parámetros de la regresión y solo aumenta considerablemente los errores estándar, podría se un indicio de que el modelo está bien especificado y, por tanto, el uso de los pesos puede no ser necesario.

Una solución intermedia a estos dos enfoques está dada por Pfeffermann (2011), quien propuso una variante (llamada q-weighted approach) haciendo una especificación ligeramente diferente de los factores de expansión, la cual se detalla a continuación:

  1. Ajustar un modelo de regresión a los pesos finales de la encuesta utilizando las variables predictoras en el modelo de regresión de interés.
  2. Obtener las predicciones de los pesos de la encuesta para cada caso como una función de las variables predictoras en el conjunto de datos.
  3. Dividir los factores de expansión de la encuesta por los valores predichos en el paso anterior.
  4. Usar los nuevos pesos obtenidos para el ajuste de los modelos de regresión.

A continuación se ejemplificará la forma de calcular estas nuevas ponderaciones, asumiendo que el ingreso está relacionado con el gasto, la zona, el sexo, y el cuadrado de la edad. De esta forma, el siguiente código computacional puede ser usado:

modwk <-
  lm(wk ~ Expenditure + Zone + Sex + Age2, data = encuesta)
wkpred <- predict(modwk)
encuesta %<>% mutate(qw = wk / wkpred)

diseno_qwgt <- encuesta %>%
  as_survey_design(
    strata = Stratum,
    ids = PSU,
    weights = qw,
    nest = T
  )

A continuación se muestra el diagrama de dispersión entre los pesos q-weighted y los factores de expansión originales:

plot(encuesta$wk, encuesta$qw)

Por otro lado, se puede observar que el comportamiento estructural de ambos conjuntos de pesos es similar.

par(mfrow=c(2, 2))

hist(encuesta$wk)
hist(encuesta$qw)
boxplot(encuesta$wk)
boxplot(encuesta$qw)

Por ende, utilizando las nuevas ponderaciones, el modelo queda especificado en R de la siguiente forma

fit_svy <- svyglm(Income ~ Expenditure + Zone + Sex + Age2,
                  design = diseno_qwgt)

summary(fit_svy)
## 
## Call:
## svyglm(formula = Income ~ Expenditure + Zone + Sex + Age2, design = diseno_qwgt)
## 
## Survey design:
## Called via srvyr
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 72.69927   68.14862    1.07    0.288    
## Expenditure  1.18859    0.21578    5.51  2.2e-07 ***
## ZoneUrban   70.97453   42.13154    1.68    0.095 .  
## SexMale     20.93437   15.99093    1.31    0.193    
## Age2         0.00824    0.00564    1.46    0.147    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 122148)
## 
## Number of Fisher Scoring iterations: 2

References

Heeringa, Steven G., Brady T. West, y Patricia A. Berglund. 2017. Applied survey data analysis. Chapman y Hall CRC statistics en the social y behavioral sciences series. CRC Press.
Pfeffermann, Danny. 2011. «Modelling of complex survey data: Why model? Why is it a problem? How can we approach it?» Survey Methodology 37 (2): 115-36.