7.1 Definiciones básicas
A modo de contexto histórico, Heeringa, West, y Berglund (2017) afirman que los primeros autores en discutir, de manera empírica, el impacto que surten los diseños muestrales complejos en las inferencias relacionadas con modelos de regresión fueron Kish y Frankel (1974); posteriormente Fuller (1975) desarrolló un estimador de varianza para parámetros de modelos de regresión tomando como insumos teóricos la linealización de Taylor con ponderación desigual de las observaciones bajo diseños de muestreo estratificado y de dos etapas.
Ahora bien, como es bien sabido, para el uso de la teoría de modelos de regresión se requieren que se cumplan algunos supuestos estadísticos que en ocasiones son difíciles de verificar en la práctica. En este sentido, Shah, Holt, y Folsom (1977) discuten algunos aspectos relacionados con las violaciones de dichos supuestos y dan algunos métodos apropiados para hacer inferencias sobre los parámetros estimados de los modelos de regresión lineal usando datos de encuestas.
Asimismo, David A. Binder (1983) obtuvo las distribuciones muestrales de los estimadores para parámetros de regresión en poblaciones finitas y estimadores de varianza relacionados en el contexto de muestras complejas. Skinner, Holt, y Smith (1989) estudiaron las propiedades de los estimadores de las varianzas para los coeficientes de regresión bajo diseños de muestras complejos. Más adelante, Fuller (2002) generó un resumen de los métodos de estimación para modelos de regresión que contienen información relacionada con muestras complejas. Por último, Pfeffermann (2011) realizó una discusión sobre los distintos enfoques basados en el ajuste de modelos de regresión lineal a datos de encuestas de muestras complejas, presentando apoyo empírico para el uso del método “q-weighted”, que será el recomendado en este documento.
Un modelo de regresión lineal simple se define como \(y=\beta_{0}+\beta_{1}x+\varepsilon\); en donde \(y\) se presenta como la variable dependiente, \(x\) es la variable independiente y \(\beta_{0}\) y \(\beta_{1}\) son los parámetros del modelo. La variable \(\varepsilon\) se conoce como el error aleatorio del modelo y se define como \(\varepsilon=y-\hat{y}=y-\beta_{0}+\beta_{1}x\).
Generalizando el modelo anterior, se definen los modelos de regresión lineal múltiples, al permitir la interacción de la variable dependiente con más de dos variables, justo como se presenta a continuación:
\[ y = \boldsymbol{x}\boldsymbol{\beta}+\varepsilon = \sum_{j=0}^{p}\beta_{j}x_{j}+\varepsilon = \beta_{0}+\beta_{1}x_{1}+\cdots+\beta_{p}x_{p}+\varepsilon \]
Otra manera de escribir el modelo de regresión múltiple es:
\[ y_{i} = x_{i}\boldsymbol{\beta}+\varepsilon_{i} \]
En donde, \(x_{i}=(x_{1i}\,\ldots\,x_{pi})\) y \(\boldsymbol{\beta}=(\beta_{0},\beta_{1},\ldots,\beta_{p})\).
El subíndice \(i\) hace referencia al elemento muestral o respondiente en el conjunto de datos. Heeringa, West, y Berglund (2017) presenta algunas consideraciones para los modelos de regresión, las cuales son descritas a continuación:
- \(E(\varepsilon_{i}\mid x_{i})=0\), lo que significa que el valor esperado de los residuos condicionado al grupo de covariables es igual a cero.
- \(Var(t(\varepsilon_{i}\mid x_{i})=\sigma_{y,x}^{2}\) (homogenidad de varianza) lo que significa que la varianza de los residuos condicionado al grupo de covariables es igual y constante.
- \(\varepsilon_{i}\mid x_{i}\sim N(t(0,\,\sigma_{y,x}^{2})\) (normalidad en los errores) lo que significa que, los residuos condicionados al grupo de covariables siguen una distribución normal. Esta propiedad también se extiende a la variable respuesta \(y_{i}\).
- \(cov(t(\varepsilon_{i},\,\varepsilon_{j}\mid x_{i},x_{j})\) (independencia en los residuales) los residuales en diferentes unidades observadas no están correlacionados con los valores dados por sus variables predictoras.
Una vez definido el modelo de regresión lineal y sus supuestos, se puede deducir que la mejor estimación lineal insesgada se define como el valor esperado de la variable dependiente condicionado a las variables independientes \(x\) como, \(E(y\mid x)=\hat{\beta}_{0}+\hat{\beta_{1}}x_{1}+\hat{\beta}_{2}x_{2}+\cdots+\hat{\beta}_{p}x_{p}\).
\[ \hat{y} = E(y\mid x) = E(\boldsymbol{x}\boldsymbol{\beta})+E(\varepsilon) = \boldsymbol{x}\boldsymbol{\beta}+0 = \beta_{0}+\beta_{1}x_{1}+\cdots+\beta_{p}x_{p} \]
y adicionalmente,
\[ var(t(y_{i}\mid x_{i}) = \sigma_{y,x}^{2} \]
Así mismo, se tiene que:
\[ cov(t(y_{i},y_{j}\mid x_{i},x_{j}) = 0 \] Luego, la variable respuesta tiene la siguiente distribución:
\[ y_{i} \sim N(t(x_{i}\boldsymbol{\beta},\sigma_{y,x}^{2}) \]