4.7 Pruebas para la comparación de grupos
El análisis de diferencias entre grupos es un objetivo frecuente en las encuestas de hogares. Un ejemplo clásico es la pregunta: ¿Existen diferencias estadísticamente significativas en el ingreso medio entre hogares dirigidos por hombres y aquellos dirigidos por mujeres?
Para responder a este tipo de interrogantes se aplican pruebas de hipótesis, procedimientos estadísticos que contrastan afirmaciones sobre parámetros poblacionales a partir de evidencia muestral. En el contexto de encuestas, estas pruebas deben ajustarse al diseño de muestreo (estratificación, conglomerados y ponderación) para garantizar inferencias válidas.
4.7.1 Planteamiento general de hipótesis
Una prueba de hipótesis parte de dos proposiciones antagónicas:
\[ \begin{cases} H_{0}: & \theta = \theta_0 \quad \text{(hipótesis nula)} \\ H_{1}: & \theta \neq \theta_0 \quad \text{(hipótesis alternativa, bilateral)} \end{cases} \]
Dependiendo del contexto, \(H_1\) puede plantearse de manera unilateral (\(\theta > \theta_0\) o \(\theta < \theta_0\)). El proceso consiste en evaluar si la evidencia contenida en la muestra es suficiente para rechazar \(H_0\) en favor de \(H_1\).
En muchos casos, los parámetros de interés (medias, proporciones, totales o razones) pueden expresarse como combinaciones lineales de estadísticas descriptivas:
\[ f(\theta_1,\ldots,\theta_J) = \sum_{j=1}^J a_j \theta_j \]
con estimador:
\[ \hat{f} = \sum_{j=1}^J a_j \hat{\theta}_j \]
y varianza:
\[ Var(\hat{f}) = \sum_{j=1}^J a_j^2 Var(\hat{\theta}_j) \;+\; 2\sum_{j=1}^{J-1}\sum_{k>j}^J a_j a_k \, Cov(\hat{\theta}_j,\hat{\theta}_k). \]
Este marco general abarca, entre otros casos, la diferencia entre medias poblacionales.
4.7.2 Diferencia de medias poblacionales
Sea \(\mu_{(y,d)}\) la media poblacional del dominio \(d\), con \(d=1,2\). El parámetro de interés es:
\[ \Delta = \mu_{(y,1)} - \mu_{(y,2)}. \]
Por ejemplo, \(\mu_{(y,1)}\) podría ser el ingreso medio en hogares con jefatura masculina y \(\mu_{(y,2)}\) el ingreso medio en hogares con jefatura femenina.
El estimador de la diferencia es:
\[ \hat{\Delta} = \hat{\bar{Y}}_1 - \hat{\bar{Y}}_2, \]
cuyo error estándar se calcula como:
\[ \hat{se}(\hat{\Delta}) = \sqrt{ \hat{Var}(\hat{\bar{Y}}_1) + \hat{Var}(\hat{\bar{Y}}_2) - 2 \hat{Cov}(\hat{\bar{Y}}_1, \hat{\bar{Y}}_2)}. \]
4.7.3 Estadístico de prueba e intervalo de confianza
El contraste se realiza con el estadístico:
\[ t = \frac{\hat{\Delta}}{\hat{se}(\hat{\Delta})}, \quad t \sim t_{(df)}, \]
donde los grados de libertad se aproximan como \(df = n - H\) (número de UPMs menos número de estratos).
El intervalo de confianza para \(\Delta\) al nivel \((1-\alpha)\) se define como:
\[ \hat{\Delta} \;\pm\; t_{(1-\alpha/2,df)} \, \hat{se}(\hat{\Delta}). \]
4.7.4 Ejemplo aplicado en R
En encuestas complejas, estas pruebas se implementan con la función svyttest() del paquete survey, que incorpora automáticamente los ajustes del diseño.
Ejemplo 1. Diferencia de ingresos por sexo (población total):
##
## Design-based t-test
##
## data: Income ~ Sex
## t = 1.3625, df = 118, p-value = 0.1756
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
## -12.82205 69.38503
## sample estimates:
## difference in mean
## 28.28149
Resultados (ejemplo ficticio):
- Estadístico t = -1.48
- p-valor = 0.14
- Intervalo de confianza (95%): (-77.35 , 11.41)
Interpretación: con un 95% de confianza no existe evidencia estadística suficiente para afirmar que los ingresos medios difieren por sexo.
Ejemplo 2. Diferencia de ingresos por sexo en zona urbana:
##
## Design-based t-test
##
## data: Income ~ Sex
## t = 1.5667, df = 63, p-value = 0.1222
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
## -12.31754 101.74023
## sample estimates:
## difference in mean
## 44.71134
Resultado: nuevamente no se rechaza \(H_0\), lo que indica ausencia de diferencias significativas en el ingreso medio por sexo en la zona urbana.
Ejemplo 3. Diferencia de ingresos por sexo, restringido a mayores de 18 años:
##
## Design-based t-test
##
## data: Income ~ Sex
## t = 1.5263, df = 118, p-value = 0.1296
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
## -10.72746 82.85253
## sample estimates:
## difference in mean
## 36.06253
Conclusión: tampoco se rechaza \(H_0\). Es decir, no se observa evidencia estadística de diferencias en los ingresos medios entre hombres y mujeres mayores de 18 años.
El procedimiento descrito no se limita a las medias, sino que también puede aplicarse a proporciones, totales, razones o cualquier función diferenciable de totales. En todos los casos, el contraste se fundamenta en la estimación puntual, su varianza (incluyendo covarianzas cuando corresponde) y la comparación con la distribución t ajustada al diseño muestral.