4.7 Estimando razones en encuestas de hogares
Un caso particular de una función no lineal de totales es la razón poblacional. Esta se define como el cociente de dos totales poblacionales de características de interés. En las encuestas de hogares, en ocasiones se requiere estimar este parámetro, por ejemplo, cantidad de hombres por cada mujer o la cantidad de mascotas por cada hogar en un país determinado. Puesto que la razón es un cociente de totales, tanto en numerador como el denominador son cantidades desconocidas y por tanto requieren estimarse (Bautista, 1998). Por definición la razón poblacional se define de la siguiente manera:
\[\begin{eqnarray*} R & = & \frac{Y}{X} \end{eqnarray*}\]
El estimador puntual de una razón en muestreos complejos no es más que estimar los totales por separados como se define a continuación:
\[\begin{eqnarray*} \hat{R} & = & \frac{\hat{Y}}{\hat{X}}\\ & = & \frac{{ \sum_{h=1}^{H}\sum_{\alpha=1}^{\alpha_{h}}\sum_{i=1}^{nh\alpha}}\omega_{h\alpha i}y_{h\alpha i}}{{ \sum_{h=1}^{H}\sum_{\alpha=1}^{\alpha_{h}}\sum_{i=1}^{nh\alpha}}\omega_{h\alpha i}x_{h\alpha i}} \end{eqnarray*}\]
Sin embargo, dado que estimador de la razón es un cociente entre dos estimadores, es decir, dos variables aleatorias, el cálculo de la estimación de la varianza no es sencillo de obtener. Para ellos, se debe aplicar linealización de Taylor como lo muestra Gutiérrez (2016).
De manera computacional, la función survey_ratio
tiene implementado los procedimientos para estimar las razones y sus varianzas. Para un correcto cálculo de la estimación de la razón y su varianza estimada se le debe introducir a la función el numerados de la razón (numerator) y el denominador (denominator). Adicional a esto, se le debe indicar el nivel de confianza de los intervalos y qué estadística de resúmenes debe calcular (vartype). A continuación, se muestran los códigos computacionales para estimar la razón entre el gasto y el ingreso.
%>% summarise(
diseno Razon = survey_ratio(
numerator = Expenditure,
denominator = Income,
level = 0.95,
vartype = c("se", "ci")
))
## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 0.649 0.0232 0.603 0.695
Como se puede observar, la razón entre el gasto y el ingreso es, aproximando, 0.71. Lo que implica que por cada unidad 100 unidades monetarias que le ingrese al hogar, se gastan 71 unidades, consiguiendo un intervalo de confianza al 95% de 0.65 y 0.76.
Si ahora el objetivo es estimar la razón entre mujeres y hombres en la base de ejemplo, se realiza de la siguiente manera:
%>% summarise(
diseno Razon = survey_ratio(
numerator = (Sex == "Female"),
denominator = (Sex == "Male"),
level = 0.95,
vartype = c("se", "ci")
))
## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 1.11 0.0351 1.04 1.18
Como la variable sexo en la base de datos es una variable categórica, se tuvo la necesidad de generar las variables dummys para su cálculo realizando, Sex == “Female” para el caso de las mujeres y Sex == “Male” para el caso de los hombres. Los resultados del ejercicio anterior muestran que en la base de datos hay más mujeres que hombres, generando una razón de 1.13. Esto significa que, por cada 100 hombres hay aproximadamente 113 mujeres con un intervalo que varía entre 1.04 y 1.21.
Si se desea hacer la razón de mujeres y hombres pero en la zona rural, se haría de la siguiente manera:
%>% summarise(
sub_Rural Razon = survey_ratio(
numerator = (Sex == "Female"),
denominator = (Sex == "Male"),
level = 0.95,
vartype = c("se", "ci")
))
## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 1.07 0.0352 0.997 1.14
Obteniendo nuevamente que hay más mujeres que hombres. Ahora bien, otro análisis de interés es estimar la razón de gastos pero solo en la población femenina. A continuación, se presentan los códigos computacionales.
%>% summarise(
sub_Mujer Razon = survey_ratio(
numerator = Expenditure,
denominator = Income,
level = 0.95,
vartype = c("se", "ci")
))
## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 0.658 0.0199 0.619 0.698
Dando como resultado que por cada 100 unidades monetarias que le ingresan a las mujeres se gastan 70 con un intervalo de confianza entre 0.65 y 0.76. Por último, análogamente para los hombres, la razón de gastos resulta muy similar que para las mujeres.
%>% summarise(
sub_Hombre Razon = survey_ratio(
numerator = Expenditure,
denominator = Income,
level = 0.95,
vartype = c("se", "ci")
))
## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 0.639 0.0288 0.582 0.696