4.6 Prueba de hipótesis para la diferencia de medias en encuestas de hogares

Es llamado prueba de hipótesis a una técnica la cual consiste en hacer una afirmación acerca del valor que el parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada en alguna creencia o experiencia pasada que será contrastada con la evidencia que se obtengan a través de la información contenida en la muestra. Como dicha afirmación puede ser o no cierta, dos hipótesis pueden ser planteadas (antagónicas) las cuales se conocen como \(H_{0}:\) Hipótesis nula y \(H_{1}:\) Hipótesis alterna. Si se sospecha que el parámetro \(\theta\) es igual a cierto valor particular \(\theta_{0}\), los posibles juegos de hipótesis a contrastar son:

\[ \begin{cases} H_{0}: & \theta=\theta_{0}\\ H_{1}: & \theta\neq\theta_{0} \end{cases}\,\,\, \begin{cases} H_{0}: & \theta=\theta_{0}\\ H_{1}: & \theta>\theta_{0} \end{cases}\,\,\, \begin{cases} H_{0}: & \theta=\theta_{0}\\ H_{1}: & \theta<\theta_{0} \end{cases} \]

Se dirá que una de las dos hipótesis es cierta solo si la evidencia estadística, la cual es obtenida de la muestra, la apoya. El proceso por medio del cual se escoge una de las dos hipótesis es llamado Prueba de Hipótesis.

En términos generales, algunos parámetros importantes en la estadística descriptivas se pueden escribir como una combinación lineal de medidas de interés. Los casos más usuales son diferencias de medias, sumas ponderadas de medias utilizadas para construir índices económicos, etc.

Considere una función que es una combinación lineal de \(j\) estadísticas descriptivas como se muestra a continuación:

\[\begin{eqnarray*} f\left(\theta_{1},\theta_{2},...,\theta_{j}\right) & = & \sum_{j=1}^{J}a_{j}\theta_{j} \end{eqnarray*}\]

Una estimación de esta función está dada por:

\[\begin{eqnarray*} f\left(\hat{\theta}_{1},\hat{\theta}_{2},...,\hat{\theta}_{j}\right) & = & \sum_{j=1}^{J}a_{j}\hat{\theta}_{j} \end{eqnarray*}\]

cuya varianza del estimador se calcula como sigue:

\[\begin{eqnarray*} var\left(\sum_{j=1}^{J}a_{j}\hat{\theta}_{j}\right) & = & \sum_{j=1}^{J}a_{j}^{2}var\left(\hat{\theta}_{j}\right)+2\times\sum_{j=1}^{J-1}\sum_{k>j}^{J}a_{j}a_{k}\,cov\left(\hat{\theta}_{j},\hat{\theta}_{k}\right) \end{eqnarray*}\]

Como se pudo observar en la ecuación de la varianza del estimador, esta incorpora las varianzas de las estimaciones de los componentes individuales, así como las covarianzas de las estadísticas estimadas.

En primer lugar, una combinación lineal de estadísticas descriptivas de interés en este capítulo es la diferencia de media cuyo parámetro es \({\bar{Y}_{1}-\bar{Y}_{2}}\), donde, \(\bar{Y}_{1}\) es la media de la población 1, por ejemplo, ingresos medios en los hogares obtenido por los padres de familia y \(\bar{Y}_{2}\) es la media de la población 2, que para seguir el ejemplo serían, los ingresos medios de las madres en un hogar.

Considerando el parámetro de interés en esta sección, las hipótesis a estudiar serían las siguientes:

\[\begin{eqnarray*} \begin{cases} H_{0}:\bar{Y}_{1}-\bar{Y}_{2}=0\\ H_{1}:\bar{Y}_{1}-\bar{Y}_{2}\neq0 \end{cases} & \begin{cases} H_{0}:\bar{Y}_{1}-\bar{Y}_{2}=0\\ H_{1}:\bar{Y}_{1}-\bar{Y}_{2}>0 \end{cases} & \begin{cases} H_{0}:\bar{Y}_{1}-\bar{Y}_{2}=0\\ H_{1}:\bar{Y}_{1}-\bar{Y}_{2}<0 \end{cases} \end{eqnarray*}\]

Para probar estas hipótesis se utiliza el siguiente estadístico de prueba que se distribuye t-student:

\[\begin{eqnarray*} t & = & \frac{\bar{Y}_{1}-\bar{Y}_{2}}{se\left(\bar{Y}_{1}-\bar{Y}_{2}\right)}, \end{eqnarray*}\]

donde,

\[\begin{eqnarray*} se\left(\bar{Y}_{1}-\bar{Y}_{2}\right) & = & \sqrt{var\left(\bar{y}_{1}\right)+var\left(\bar{y}_{2}\right)-2cov\left(\bar{y}_{1},\bar{y}_{2}\right)} \end{eqnarray*}\]

Si se desea construir un intervalo de confianza para la diferencia de media se realizaría de la siguiente manera:

\[\begin{eqnarray*} & \left(\bar{Y}_{1}-\bar{Y}_{2}\right)\pm t_{gl,\,\alpha/2}\,se\left(\bar{Y}_{1}-\bar{Y}_{2}\right) \end{eqnarray*}\]

Para poder llevar a cabo la prueba de hipótesis para la diferencia de media de los ingresos en un hogar por sexo, tomemos la base de datos que tenemos como ejemplo. La función que se encarga de realizar la prueba es svyttest y solo requiere como argumentos la variable ingreso (o variable de interés), la variable sexo (variable discriminadora), el diseño muestral y el nivel de confianza. A continuación, se muestran los códigos computacionales que se requieren:

svyttest(Income ~ Sex, design = diseno, level=0.95) 
## 
##  Design-based t-test
## 
## data:  Income ~ Sex
## t = 1.3625, df = 118, p-value = 0.1756
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
##  -12.82205  69.38503
## sample estimates:
## difference in mean 
##           28.28149

En esta salida podemos observar que el p-valor de la prueba es 0.14. Si tomamos una significancia del 5% para la prueba se puede concluir que, con una confianza del 95% y basados en la muestra, no existe suficiente evidencia estadística para decir que los ingresos medios en los hogares son diferentes por sexo.

Por otro lado, el intervalo de confianza al 95% para la diferencia de medias entre los ingresos de hombres y mujeres es \(\left(-77.35,\,11.41\right)\).

Si ahora el objetivo es realizar la prueba de diferencia de medias para los ingresos entre hombres y mujeres pero solo en la zona urbana, los códigos computacionales son los siguientes:

svyttest(Income ~ Sex, design = sub_Urbano, level = 0.95) 
## 
##  Design-based t-test
## 
## data:  Income ~ Sex
## t = 1.5667, df = 63, p-value = 0.1222
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
##  -12.31754 101.74023
## sample estimates:
## difference in mean 
##           44.71134

En donde, al igual que el anterior, no se rechaza la hipótesis nula con una confianza del 95%.

Por otro lado, la función svyttest permite usar filtro. Si se requiere probar la hipótesis de diferencia de medias de ingresos por sexo pero solo en aquellas personas del hogar mayores a 18 años, se utilizará dentro de la función svyttest la función filter como se muestra a continuación:

svyttest(Income ~ Sex, design = diseno %>% filter(Age > 18), level = 0.95 )
## 
##  Design-based t-test
## 
## data:  Income ~ Sex
## t = 1.5263, df = 118, p-value = 0.1296
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
##  -10.72746  82.85253
## sample estimates:
## difference in mean 
##           36.06253

y con una confianza del 95% y basado en la muestra tampoco se rechaza la hipótesis hula. Es decir, no existe evidencia estadística para concluir que los ingresos medios entre hombres y mujeres mayores de 18 años son diferentes.