5.1 Definición del diseño de muestreo

Se inicia este capítulo haciendo la definición del diseño de muestreo (como se mostró en capítulos anteriores) usando como ejemplo la misma base de datos del capítulo anterior.

library(tidyverse)
library(survey)
library(srvyr)
options(survey.lonely.psu = "adjust")

encuesta <- readRDS("Data/encuesta.rds")

diseno <- encuesta %>%
  as_survey_design(
    strata = Stratum,
    ids = PSU,
    weights = wk,
    nest = TRUE
  )

A continuación, para efectos del ejemplo, se generan tres nuevas variables dicotómicas que indican si la persona encuestada está en estado de pobreza, o no; si está desempleada, o no; y si es mayor de 18 años, o no. Estas nuevas variables categórica nacen de variables propias de la encuesta, como lo son el ingreso percápita, el estado de ocupación y la edad en años

diseno <- diseno %>%
  mutate(
    pobreza = ifelse(Poverty != "NotPoor", 1, 0),
    desempleo = ifelse(Employment == "Unemployed", 1, 0),
    edad_18 = case_when(Age < 18 ~ "< 18 anios", 
                        TRUE ~ ">= 18 anios")
  )

Como se pudo observar en el código anterior, se ha introducido la función case_when la cual es una extensión de la función ifelse que permite crear múltiples categorías a partir de una o varias condiciones. Asimismo, como se ha mostrado anteriormente, en ocasiones se desea realizar estimaciones por subpoblación; en este caso se extraen cuatro subgrupos de la encuesta y se definen a continuación:

sub_Urbano <- diseno %>%  filter(Zone == "Urban")
sub_Rural  <- diseno %>%  filter(Zone == "Rural")
sub_Mujer  <- diseno %>%  filter(Sex == "Female")
sub_Hombre <- diseno %>%  filter(Sex == "Male")