14.3 Lectura de la encuesta y estimaciones directas

En la primera línea se carga la encuesta desde un archivo RDS y se guarda en un objeto llamado encuesta. La segunda línea utiliza la función transmute() de la librería dplyr para seleccionar las variables de interés en la encuesta y crear nuevas variables a partir de ellas. Luego, se utiliza la variable id_dominio para identificar el dominio de estudio. En conjunto, estos pasos son fundamentales para preparar los datos de la encuesta para su posterior estimación del parámetro.

encuesta <- readRDS('Recursos/Día5/Sesion1/Data/encuestaDOM21N1.rds')
region <- readRDS(file = "Recursos/Día5/Sesion1/Data/total_personas_dam2.rds") %>% 
  ungroup() %>% select(region,dam2)

## 
encuesta <-
  encuesta %>%
  transmute(
    dam = haven::as_factor(dam_ee,levels = "values"),
    dam = str_pad(dam,width = 2,pad = "0"),
    dam2,
    fep = `_fep`, 
    upm = `_upm`,
    estrato = `_estrato`,
    empleo = condact3
  ) %>% 
  inner_join(region)

El código presentado define el diseño muestral para el análisis de la encuesta “encuesta” en R. La primera línea establece una opción para el tratamiento de las PSU (unidades primarias de muestreo) solitarias, lo que indica que se deben aplicar ajustes en el cálculo de los errores estándar. La segunda línea utiliza la función “as_survey_design” de la librería “survey” para definir el diseño muestral. La función toma como argumentos la variable “encuesta” y los siguientes parámetros:

  • strata: la variable que define las estratas de muestreo en la encuesta, en este caso la variable “estrato”.

  • ids: la variable que identifica las PSU en la encuesta, en este caso la variable “upm”.

  • weights: la variable que indica los pesos muestrales de cada observación, en este caso la variable “fep”.

  • nest: un parámetro lógico que indica si los datos de la encuesta están anidados o no. En este caso, se establece en “TRUE” porque los datos están anidados por dominio.

En conjunto, estos pasos permiten definir un diseño muestral que tenga en cuenta las características del muestreo y los pesos asignados a cada observación en la encuesta, lo que es necesario para obtener estimaciones precisas y representativas de los parámetros de interés.

options(survey.lonely.psu= 'adjust' )
diseno <- encuesta %>%
  as_survey_design(
    strata = estrato,
    ids = upm,
    weights = fep,
    nest=T
  )

El código presentado es una operación que se realiza en el diseño muestral definido en el código anterior, con el objetivo de obtener un indicador del empleo por dominio. La primera línea define un objeto llamado “indicador_dam”. En la segunda línea, se agrupa el diseño muestral según el dominio especificado en la variable “id_dominio”. La tercera línea filtra los datos para quedarse con los individuos que tienen empleo (empleo igual a 1), están desempleados (empleo igual a 2) o son inactivos (empleo igual a 3).

A partir de la cuarta línea, se utilizan las funciones “summarise” y “survey_mean” para calcular las estadísticas descriptivas de interés. En particular, se calculan el número de personas ocupadas, desocupadas e inactivas en cada dominio, y la proporción de personas en cada una de estas categorías. La función “survey_mean” se utiliza para calcular la proporción de personas en cada una de estas categorías con sus respectivos errores estándar y efecto de diseño.

indicador_dam <-
  diseno %>% group_by(dam2) %>% 
  filter(empleo %in% c(1:3)) %>%
  summarise(
    n_ocupado = unweighted(sum(empleo == 1)),
    n_desocupado = unweighted(sum(empleo == 2)),
    n_inactivo = unweighted(sum(empleo == 3)),
    Ocupado = survey_mean(empleo == 1,
      vartype = c("se",  "var"),
      deff = T
    ),
    Desocupado = survey_mean(empleo == 2,
                          vartype = c("se",  "var"),
                          deff = T
    ),
    Inactivo = survey_mean(empleo == 3,
                          vartype = c("se",  "var"),
                          deff = T
    )
  )