4.8 Estimando razones en encuestas de hogares
Un caso particular de una función no lineal de totales es la razón poblacional, definida como el cociente de dos totales poblacionales de características de interés. En encuestas de hogares, este parámetro es relevante cuando, por ejemplo, se requiere conocer la cantidad de hombres por cada mujer, la proporción de ocupados respecto a la población en edad de trabajar, o la cantidad de mascotas por cada hogar. Puesto que la razón es un cociente de totales, tanto el numerador como el denominador son cantidades desconocidas y, por lo tanto, deben estimarse (Bautista, 1998). Formalmente, la razón poblacional se define como:
\[ R = \frac{Y}{X} \]
y su estimador puntual en el marco de un muestreo complejo se expresa como:
\[ \hat{R} = \frac{\hat{Y}}{\hat{X}} = \frac{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i} y_{h\alpha i}} {\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i} x_{h\alpha i}}. \]
Sin embargo, dado que \(\hat{R}\) es un cociente entre dos estimadores —es decir, dos variables aleatorias— el cálculo de su varianza no es trivial. Para ello se emplea la linealización de Taylor, como lo muestra Gutiérrez (2016), o bien métodos de remuestreo. En términos de la función de estimación, se define:
\[ z_{hik} = y_{hik} - \hat{R}x_{hik}, \]
Implementación computacional en R
En la práctica, estos cálculos se facilitan gracias a los paquetes especializados. En particular, la función survey_ratio implementa la estimación de razones y sus varianzas en el marco de encuestas complejas. Para ello es necesario especificar claramente:
- La variable del Expenditure (
numerator), - La variable del Income (
denominator), - El nivel de confianza (
level) para los intervalos, y - Las estadísticas de resumen deseadas (
vartype).
A continuación, se ilustra cómo estimar la razón entre el gasto y el ingreso de los hogares:
diseno %>% summarise(
Razon = survey_ratio(
numerator = Expenditure,
denominator = Income,
level = 0.95,
vartype = c("se", "ci")
))## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 0.649 0.0232 0.603 0.695
Interpretación aplicada
Las razones permiten expresar la relación entre dos variables, lo cual resulta especialmente útil para construir indicadores comparativos y de seguimiento. Un ejemplo directo en encuestas de hogares es la razón gasto/ingreso, que ayuda a identificar patrones de consumo y niveles de sostenibilidad económica de los hogares.
Más allá de este caso, las razones también se utilizan en marcos internacionales. Por ejemplo, el Indicador 2.1.1 de los Objetivos de Desarrollo Sostenible (ODS) —prevalencia de subalimentación— se calcula a partir de la razón entre el consumo de alimentos, medido en calorías ingeridas, y los requerimientos energéticos mínimos de la dieta, determinados según edad, sexo y nivel de actividad física.
De esta forma, las razones constituyen una herramienta central para transformar los resultados de encuestas en indicadores significativos que facilitan el análisis de realidades socioeconómicas y poblacionales.
Como se puede observar, la razón entre el gasto y el ingreso es, aproximando, 0.71. Lo que implica que por cada unidad 100 unidades monetarias que le ingrese al hogar, se gastan 71 unidades, consiguiendo un intervalo de confianza al 95% de 0.65 y 0.76.
Si ahora el objetivo es estimar la razón entre mujeres y hombres en la base de ejemplo, se realiza de la siguiente manera:
diseno %>% summarise(
Razon = survey_ratio(
numerator = (Sex == "Female"),
denominator = (Sex == "Male"),
level = 0.95,
vartype = c("se", "ci")
))## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 1.11 0.0351 1.04 1.18
Como la variable sexo en la base de datos es una variable categórica, se tuvo la necesidad de generar las variables dummys para su cálculo realizando, Sex == “Female” para el caso de las mujeres y Sex == “Male” para el caso de los hombres. Los resultados del ejercicio anterior muestran que en la base de datos hay más mujeres que hombres, generando una razón de 1.13. Esto significa que, por cada 100 hombres hay aproximadamente 113 mujeres con un intervalo que varía entre 1.04 y 1.21.
Si se desea hacer la razón de mujeres y hombres pero en la zona rural, se haría de la siguiente manera:
sub_Rural %>% summarise(
Razon = survey_ratio(
numerator = (Sex == "Female"),
denominator = (Sex == "Male"),
level = 0.95,
vartype = c("se", "ci")
))## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 1.07 0.0352 0.997 1.14
Obteniendo nuevamente que hay más mujeres que hombres. Ahora bien, otro análisis de interés es estimar la razón de gastos pero solo en la población femenina. A continuación, se presentan los códigos computacionales.
sub_Mujer %>% summarise(
Razon = survey_ratio(
numerator = Expenditure,
denominator = Income,
level = 0.95,
vartype = c("se", "ci")
))## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 0.658 0.0199 0.619 0.698
Dando como resultado que por cada 100 unidades monetarias que le ingresan a las mujeres se gastan 70 con un intervalo de confianza entre 0.65 y 0.76. Por último, análogamente para los hombres, la razón de gastos resulta muy similar que para las mujeres.
sub_Hombre %>% summarise(
Razon = survey_ratio(
numerator = Expenditure,
denominator = Income,
level = 0.95,
vartype = c("se", "ci")
))## # A tibble: 1 × 4
## Razon Razon_se Razon_low Razon_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 0.639 0.0288 0.582 0.696