10.1 Estimaciones directas.

En este apartado realizaremos las estimaciones directas para los dominios que fueron seleccionados en la muestra, dado que estos fueron no planeados. Las estimaciones directas son una herramienta comúnmente utilizada en la estadística inferencial para obtener información sobre una población a partir de una muestra. Sin embargo, estas estimaciones pueden presentar problemas cuando la muestra es pequeña, lo que puede conducir a una falta de precisión en las estimaciones y a una mayor incertidumbre en las conclusiones que se puedan extraer.

encuestaDOM <-  readRDS("Recursos/Día3/Sesion3/Data/encuestaDOM.Rds")

encuestaDOM <-
  encuestaDOM %>%
  transmute(
    dam2 = id_dominio,
    upm = str_pad(string = upm,width = 9,pad = "0"),
    estrato = str_pad(string = estrato,width = 5,pad = "0"),
    factor_anual = factor_expansion / 4, 
    pet, ocupado,orden_sector
) %>% 
    filter(ocupado == 1 & pet == 1)

Para la definición del diseño se hace uso de la librería survey como se muestra en el siguiente código

options(survey.lonely.psu= 'adjust' )
disenoDOM <- encuestaDOM %>%
  as_survey_design(
    strata = estrato,
    ids = upm,
    weights = factor_anual,
    nest=T
  )

10.1.1 Calculo del indicador

La informalidad laboral en República Dominicana se define como el trabajo que se realiza al margen de las leyes tributarias y laborales, así como aquel que busca evadir sus obligaciones fiscales ante las agencias del gobierno. Para definir el indicador de la informalidad laboral en República Dominicana, se utiliza la siguiente fórmula:

\[ Tas\ de\ informalidad\ laboral = \frac{Número\ de\ trabajadores\ informales}{ Población\ económicamente\ activa} \times 100. \]

Este bloque de código realiza lo siguiente:

  • Se agrupa la encuesta por dam2
  • Se calcula el tamaño muestral no ponderado (n()).
  • Se calcula la razón de la variable orden_sector igual a 2 sobre la variable constante igual a 1 mediante el uso de survey_ratio(), que utiliza los pesos de muestreo para producir estimaciones de varianza y errores estándar apropiados para el muestreo complejo.
  • La función survey_ratio() también permite calcular intervalos de confianza y coeficientes de variación.
indicador_dom <-
  disenoDOM %>% group_by(dam2) %>% 
  summarise(
    n = unweighted(n()),
    Rd = survey_ratio(
      numerator = orden_sector == 2 ,
      denominator = 1,
      vartype = c("se", "ci", "var", "cv"),
      deff = T
    )
  )

Ahora, como parte del proceso es necesario incorporar la información del número de upm por dam2, para lo cual se hace

n_upm <- encuestaDOM %>% distinct(dam2, upm) %>% 
  group_by(dam2) %>% tally(name = "n_upm",sort = TRUE)
indicador_dom <- inner_join(n_upm,indicador_dom)
saveRDS(object = indicador_dom, file = "Recursos/Día3/Sesion3/Data/indicador_dom.rds")
dam2 n_upm n Rd Rd_se Rd_low Rd_upp Rd_var Rd_cv Rd_deff
0101 126 2951 0.4147 0.0234 0.3688 0.4605 0.0005 0.0564 6.6763
3201 108 2840 0.4233 0.0186 0.3868 0.4597 0.0003 0.0439 4.0432
2501 87 3057 0.4108 0.0192 0.3731 0.4485 0.0004 0.0467 4.6897
3203 59 1944 0.4858 0.0202 0.4462 0.5255 0.0004 0.0416 3.1956
3202 42 1046 0.4221 0.0247 0.3736 0.4706 0.0006 0.0585 2.6301
1101 38 1198 0.3788 0.0347 0.3107 0.4469 0.0012 0.0916 6.1659
3206 32 836 0.3968 0.0252 0.3474 0.4462 0.0006 0.0635 2.2273
0901 20 743 0.5236 0.0529 0.4198 0.6273 0.0028 0.1010 8.3883
1301 20 738 0.4899 0.0338 0.4236 0.5562 0.0011 0.0690 3.3902
2101 20 505 0.4522 0.0391 0.3756 0.5289 0.0015 0.0864 3.1216