4.7 Pruebas para la comparación de grupos

El análisis de diferencias entre grupos es un objetivo frecuente en las encuestas de hogares. Un ejemplo clásico es la pregunta: ¿Existen diferencias estadísticamente significativas en el ingreso medio entre hogares dirigidos por hombres y aquellos dirigidos por mujeres?

Para responder a este tipo de interrogantes se aplican pruebas de hipótesis, procedimientos estadísticos que contrastan afirmaciones sobre parámetros poblacionales a partir de evidencia muestral. En el contexto de encuestas, estas pruebas deben ajustarse al diseño de muestreo (estratificación, conglomerados y ponderación) para garantizar inferencias válidas.

4.7.1 Planteamiento general de hipótesis

Una prueba de hipótesis parte de dos proposiciones antagónicas:

\[ \begin{cases} H_{0}: & \theta = \theta_0 \quad \text{(hipótesis nula)} \\ H_{1}: & \theta \neq \theta_0 \quad \text{(hipótesis alternativa, bilateral)} \end{cases} \]

Dependiendo del contexto, \(H_1\) puede plantearse de manera unilateral (\(\theta > \theta_0\) o \(\theta < \theta_0\)). El proceso consiste en evaluar si la evidencia contenida en la muestra es suficiente para rechazar \(H_0\) en favor de \(H_1\).

En muchos casos, los parámetros de interés (medias, proporciones, totales o razones) pueden expresarse como combinaciones lineales de estadísticas descriptivas:

\[ f(\theta_1,\ldots,\theta_J) = \sum_{j=1}^J a_j \theta_j \]

con estimador:

\[ \hat{f} = \sum_{j=1}^J a_j \hat{\theta}_j \]

y varianza:

\[ Var(\hat{f}) = \sum_{j=1}^J a_j^2 Var(\hat{\theta}_j) \;+\; 2\sum_{j=1}^{J-1}\sum_{k>j}^J a_j a_k \, Cov(\hat{\theta}_j,\hat{\theta}_k). \]

Este marco general abarca, entre otros casos, la diferencia entre medias poblacionales.

4.7.2 Diferencia de medias poblacionales

Sea \(\mu_{(y,d)}\) la media poblacional del dominio \(d\), con \(d=1,2\). El parámetro de interés es:

\[ \Delta = \mu_{(y,1)} - \mu_{(y,2)}. \]

Por ejemplo, \(\mu_{(y,1)}\) podría ser el ingreso medio en hogares con jefatura masculina y \(\mu_{(y,2)}\) el ingreso medio en hogares con jefatura femenina.

El estimador de la diferencia es:

\[ \hat{\Delta} = \hat{\bar{Y}}_1 - \hat{\bar{Y}}_2, \]

cuyo error estándar se calcula como:

\[ \hat{se}(\hat{\Delta}) = \sqrt{ \hat{Var}(\hat{\bar{Y}}_1) + \hat{Var}(\hat{\bar{Y}}_2) - 2 \hat{Cov}(\hat{\bar{Y}}_1, \hat{\bar{Y}}_2)}. \]

4.7.3 Estadístico de prueba e intervalo de confianza

El contraste se realiza con el estadístico:

\[ t = \frac{\hat{\Delta}}{\hat{se}(\hat{\Delta})}, \quad t \sim t_{(df)}, \]

donde los grados de libertad se aproximan como \(df = n - H\) (número de UPMs menos número de estratos).

El intervalo de confianza para \(\Delta\) al nivel \((1-\alpha)\) se define como:

\[ \hat{\Delta} \;\pm\; t_{(1-\alpha/2,df)} \, \hat{se}(\hat{\Delta}). \]

4.7.4 Ejemplo aplicado en `R`

En encuestas complejas, estas pruebas se implementan con la función svyttest() del paquete survey, que incorpora automáticamente los ajustes del diseño.

Ejemplo 1. Diferencia de ingresos por sexo (población total):

svyttest(Income ~ Sex, design = diseno, level = 0.95)

## 
##  Design-based t-test
## 
## data:  Income ~ Sex
## t = 1.3625, df = 118, p-value = 0.1756
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
##  -12.82205  69.38503
## sample estimates:
## difference in mean 
##           28.28149

Resultados (ejemplo ficticio):

Estadístico t = -1.48
p-valor = 0.14
Intervalo de confianza (95%): (-77.35 , 11.41)

Interpretación: con un 95% de confianza no existe evidencia estadística suficiente para afirmar que los ingresos medios difieren por sexo.

Ejemplo 2. Diferencia de ingresos por sexo en zona urbana:

svyttest(Income ~ Sex, design = sub_Urbano, level = 0.95)

## 
##  Design-based t-test
## 
## data:  Income ~ Sex
## t = 1.5667, df = 63, p-value = 0.1222
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
##  -12.31754 101.74023
## sample estimates:
## difference in mean 
##           44.71134

Resultado: nuevamente no se rechaza \(H_0\), lo que indica ausencia de diferencias significativas en el ingreso medio por sexo en la zona urbana.

Ejemplo 3. Diferencia de ingresos por sexo, restringido a mayores de 18 años:

svyttest(Income ~ Sex,
         design = diseno %>% filter(Age > 18),
         level = 0.95)

## 
##  Design-based t-test
## 
## data:  Income ~ Sex
## t = 1.5263, df = 118, p-value = 0.1296
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
##  -10.72746  82.85253
## sample estimates:
## difference in mean 
##           36.06253

Conclusión: tampoco se rechaza \(H_0\). Es decir, no se observa evidencia estadística de diferencias en los ingresos medios entre hombres y mujeres mayores de 18 años.

El procedimiento descrito no se limita a las medias, sino que también puede aplicarse a proporciones, totales, razones o cualquier función diferenciable de totales. En todos los casos, el contraste se fundamenta en la estimación puntual, su varianza (incluyendo covarianzas cuando corresponde) y la comparación con la distribución t ajustada al diseño muestral.