Capítulo 6 Modelos de regresión bajo diseños de muestreo complejos
Un modelo matemático es una relación funcional entre variables. El interés consiste en encontrar modelos que relacionen un conjunto de variables de entrada provenientes de censos, registros administrativos, etc. con una variable de salida proveniente de encuestas de hogares. Normalmente en un proceso se tienen varias salidas, pero en este libro se estudia una variable de salida o respuesta del proceso que se asume condicionada a una, o que depende de los valores de una o más variables de entrada.
A modo de contexto histórico (Heringa), los primeros autores en discutir, de manera empírica, el impacto que surten los diseños muestrales complejos en las inferencias relacionadas con modelos de regresión fueron Kish y Frankel (1974). Adicional a lo anterior, Fuller (1975) desarrolló un estimador de varianza tomando como insumos teóricos la linealización para modelos de regresión lineal múltiple con ponderación desigual de las observaciones e introdujo estimadores de varianza para parámetros de regresión estimados bajo diseños de muestreo estratificado y de dos etapas.
Ahora bien, como es bien sabido, para el uso de la teoría de modelos de regresión se requieren que se cumplan algunos supuestos estadísticos que en ocasiones no se cumplen. En este sentido, Sha et al. (1977) discutieron las violaciones de dichos supuestos y métodos apropiados para hacer inferencias sobre los parámetros estimados de los modelos de regresión lineal usando datos de encuestas, y presentaron una evaluación empírica del desempeño de los estimadores de varianza basados en TSL. En relación con las distribuciones muestrales Binder (1983) se centró en dichas distribuciones muestrales de estimadores para parámetros de regresión en poblaciones finitas y estimadores de varianza relacionados definidos. Skinner et al. (1989) trabajaron estimadores de las varianzas para los coeficientes de regresión que permitieron diseños de muestras complejos y recomendaron el uso de métodos de linealización u otros métodos para la estimación de la varianza. Avanzando un poco en la línea de tiempo, Fuller (2002) generó un resumen de los métodos de estimación para modelos de regresión que contienen información relacionada con muestras complejas. Por último, Pfeffermann (2011) hizo una discusión sobre los distintos enfoques basados en el ajuste de modelos de regresión lineal a datos de encuestas de muestras complejas, presentando apoyo empírico para el uso de un método “q-weighted”.
Un modelo de regresión lineal simple se define como \(y=\beta_{0}+\beta_{1}x+\varepsilon\) donde \(y\) se define como la variable dependiente, \(x\) es la variable independiente y \(\beta_{0}\) y \(\beta_{1}\) los parámetros del modelo. La variable \(\varepsilon\) se conoce como el error aleatorio del modelo y se define como \(\varepsilon=y-\hat{y}=y-\beta_{0}+\beta_{1}x\).
Generalizando el modelo anterior, se definen los modelos de regresión lineal múltiples como
\[ y = \boldsymbol{x}\boldsymbol{\beta}+\varepsilon = \sum_{j=0}^{p}\beta_{j}x_{j}+\varepsilon = \beta_{0}+\beta_{1}x_{1}+\cdots+\beta_{p}x_{p}+\varepsilon \]
Donde \(x_{0}=1\). Por otro lado, se define como el valor esperado para la variable dependiente condicionado con las variables independientes \(x\) como, \(E\left(y\mid x\right)=\hat{\beta}_{0}+\hat{\beta_{1}}x_{1}+\hat{\beta}_{2}x_{2}+\cdots+\hat{\beta}_{p}x_{p}\).
Otra manera de escribir el modelo de regresión múltiple es:
\[ y_{i} = x_{i}\boldsymbol{\beta}+\varepsilon_{i} \]
donde, \(x_{i}=\left[1\,x_{1i}\,\ldots\,x_{pi}\right]\) y \(\boldsymbol{\beta}^{T}=\left[\beta_{0}\,\,\beta_{1}\,\,\ldots\,\,\beta_{p}\right]\).
El subíndice \(i\) hace referencia al elemento muestral o respondiente en el conjunto de datos. Algunas consideraciones para los modelos de regresión lineal son tomadas de Heringa y se describen a continuación:
\(E\left(\varepsilon_{i}\mid x_{i}\right)=0,\) lo que significa que el valor esperado de los residuos condicionado a un grupo de covariables es igual a 0.
\(Var\left(\varepsilon_{i}\mid x_{i}\right)=\sigma_{y,x}^{2}\) (homogenidad de varianza) lo que significa que, la varianza de los residuos condicionado a un grupo de covariables es igual constante.
\(\varepsilon_{i}\mid x_{i}\sim N\left(0,\,\sigma_{y,x}^{2}\right)\) (Normalidad en los errores) lo que significa que, los residuos condicionados a un grupo de covariables se distribuye normal. Esta propiedad también se extiende a la variable respuesta \(y_{i}\).
\(cov\left(\varepsilon_{i},\,\varepsilon_{j}\mid x_{i},x_{j}\right)\) (independencia en los residuales) los residuales en diferentes sujetos no están correlacionados con los valores dados en sus variables predictoras.
Una vez definido el modelo de regresión lineal y sus supuestos, se puede deducir los siguiente:
\[ \hat{y} = E\left(y\mid x\right) = E\left(\boldsymbol{x}\boldsymbol{\beta}\right)+E\left(\varepsilon\right) = \boldsymbol{x}\boldsymbol{\beta}+0 = \beta_{0}+\beta_{1}x_{1}+\cdots+\beta_{p}x_{p} \]
y Adicionalmente,
\[ var\left(y_{i}\mid x_{i}\right) = \sigma_{y,x}^{2} \]
\[ cov\left(y_{i},y_{j}\mid x_{i},x_{j}\right) = 0 \]
\[ y_{i} \sim N\left(x_{i}\boldsymbol{\beta},\sigma_{y,x}^{2}\right) \]