Capítulo 5 Análisis de variables categóricas en encuestas de hogares
En ocasiones, no es sencillo distinguir entre las variables denominada cualitativos y cuantitativos puesto que, algunas variables de tipo cuantitativo pueden llegar a considerarse como categóricas si se divide el rango de valores de la variable en intervalos o categorías. Un ejemplo de esto es la variable edad, que en una encuesta de hogares se pregunta como variable cuantitativa y esta se puede dividir, por ejemplo, en Colombia, en las siguientes categorías: Adolescencia (12 - 18 años), Juventud (14 - 26 años), Adultez (27- 59 años), Persona Mayor (60 años o más), envejecimiento y vejez.
Por otro lado, una variable categórica también se puede convertir en una variable cuantitativa realizando, por ejemplo, un análisis de correspondencias. Esto ocurre en muchas situaciones cuando se requiere construir índices. Por ejemplo, índice de fuerza laboral. En el contexto de encuestas, las preguntas que contienen variables categóricas son uno de los tipos de preguntas más usuales. Estas preguntas suelen representarse en resultados de porcentajes. Por ejemplo, preguntas relacionadas con parentesco, sexo, si es jefe o jefa de hogar, si la vivienda contiene agua potable, etc.
library(tidyverse)
<- readRDS("Data/encuesta.rds")
encuesta head(encuesta)
## HHID Stratum NIh nIh dI PersonID PSU Zone Sex Age MaritalST
## 1 idHH00031 idStrt001 9 2 4.5 idPer01 PSU0003 Rural Male 68 Married
## 2 idHH00031 idStrt001 9 2 4.5 idPer02 PSU0003 Rural Female 56 Married
## 3 idHH00031 idStrt001 9 2 4.5 idPer03 PSU0003 Rural Female 24 Married
## 4 idHH00031 idStrt001 9 2 4.5 idPer04 PSU0003 Rural Male 26 Married
## 5 idHH00031 idStrt001 9 2 4.5 idPer05 PSU0003 Rural Female 3 <NA>
## 6 idHH00041 idStrt001 9 2 4.5 idPer01 PSU0003 Rural Female 61 Widowed
## Income Expenditure Employment Poverty dki dk wk Region CatAge
## 1 409.87 346.34 Employed NotPoor 8 36 34.50371 Norte Más de 60
## 2 409.87 346.34 Employed NotPoor 8 36 33.63761 Norte 46-60
## 3 409.87 346.34 Employed NotPoor 8 36 33.63761 Norte 16-30
## 4 409.87 346.34 Employed NotPoor 8 36 34.50371 Norte 16-30
## 5 409.87 346.34 <NA> NotPoor 8 36 33.63761 Norte 0-5
## 6 823.75 392.24 Employed NotPoor 8 36 33.63761 Norte Más de 60
Definición del diseño y creación de variables categóricas
Se inicia este capítulo haciendo el ajuste del diseño muestral (como se mostró en capítulos anteriores) usando como ejemplo la misma base de datos del capítulo anterior. Luego, para efectos del ejemplo, se genera una variable categórica la cual indica si la persona encuestada está en estado de pobreza o no como sigue:
library(survey)
library(srvyr)
options(survey.lonely.psu = "adjust")
<- encuesta %>%
diseno as_survey_design(
strata = Stratum,
ids = PSU,
weights = wk,
nest = TRUE)
A continuación, se define una variable categórica que nace de variables propias de la encuesta,
<- diseno %>% mutate(
diseno pobreza = ifelse(Poverty != "NotPoor", 1, 0),
desempleo = ifelse(Employment == "Unemployed", 1, 0),
edad_18 = case_when(Age < 18 ~ "< 18 anios", TRUE ~ ">= 18 anios")
)
Como se pudo observar en el código anterior, se ha introducido la función case_when
la cual es una extensión del a función ifelse
que permite crear múltiples categorías a partir de una o varias condiciones.
Como se ha mostrado anteriormente, en ocasiones se desea realizar estimaciones por sub-grupos de la población, en este caso se extraer 4 sub-grupos de la encuesta y se definen a continuación:
<- diseno %>% filter(Zone == "Urban")
sub_Urbano <- diseno %>% filter(Zone == "Rural")
sub_Rural <- diseno %>% filter(Sex == "Female")
sub_Mujer <- diseno %>% filter(Sex == "Male") sub_Hombre