10.1 Estimaciones directas.
En este apartado realizaremos las estimaciones directas para los dominios que fueron seleccionados en la muestra, dado que estos fueron no planeados. Las estimaciones directas son una herramienta comúnmente utilizada en la estadística inferencial para obtener información sobre una población a partir de una muestra. Sin embargo, estas estimaciones pueden presentar problemas cuando la muestra es pequeña, lo que puede conducir a una falta de precisión en las estimaciones y a una mayor incertidumbre en las conclusiones que se puedan extraer.
<- readRDS("Recursos/Día3/Sesion3/Data/encuestaDOM.Rds")
encuestaDOM
<-
encuestaDOM %>%
encuestaDOM transmute(
dam2 = id_dominio,
upm = str_pad(string = upm,width = 9,pad = "0"),
estrato = str_pad(string = estrato,width = 5,pad = "0"),
factor_anual = factor_expansion / 4,
pet, ocupado,orden_sector%>%
) filter(ocupado == 1 & pet == 1)
Para la definición del diseño se hace uso de la librería survey
como se muestra en el siguiente código
options(survey.lonely.psu= 'adjust' )
<- encuestaDOM %>%
disenoDOM as_survey_design(
strata = estrato,
ids = upm,
weights = factor_anual,
nest=T
)
10.1.1 Calculo del indicador
La informalidad laboral en República Dominicana se define como el trabajo que se realiza al margen de las leyes tributarias y laborales, así como aquel que busca evadir sus obligaciones fiscales ante las agencias del gobierno. Para definir el indicador de la informalidad laboral en República Dominicana, se utiliza la siguiente fórmula:
\[ Tas\ de\ informalidad\ laboral = \frac{Número\ de\ trabajadores\ informales}{ Población\ económicamente\ activa} \times 100. \]
Este bloque de código realiza lo siguiente:
- Se agrupa la encuesta por dam2
- Se calcula el tamaño muestral no ponderado (
n()
). - Se calcula la razón de la variable
orden_sector
igual a 2 sobre la variable constante igual a 1 mediante el uso desurvey_ratio()
, que utiliza los pesos de muestreo para producir estimaciones de varianza y errores estándar apropiados para el muestreo complejo. - La función
survey_ratio()
también permite calcular intervalos de confianza y coeficientes de variación.
<-
indicador_dom %>% group_by(dam2) %>%
disenoDOM summarise(
n = unweighted(n()),
Rd = survey_ratio(
numerator = orden_sector == 2 ,
denominator = 1,
vartype = c("se", "ci", "var", "cv"),
deff = T
) )
Ahora, como parte del proceso es necesario incorporar la información del número de upm por dam2, para lo cual se hace
<- encuestaDOM %>% distinct(dam2, upm) %>%
n_upm group_by(dam2) %>% tally(name = "n_upm",sort = TRUE)
<- inner_join(n_upm,indicador_dom)
indicador_dom saveRDS(object = indicador_dom, file = "Recursos/Día3/Sesion3/Data/indicador_dom.rds")
dam2 | n_upm | n | Rd | Rd_se | Rd_low | Rd_upp | Rd_var | Rd_cv | Rd_deff |
---|---|---|---|---|---|---|---|---|---|
0101 | 126 | 2951 | 0.4147 | 0.0234 | 0.3688 | 0.4605 | 0.0005 | 0.0564 | 6.6763 |
3201 | 108 | 2840 | 0.4233 | 0.0186 | 0.3868 | 0.4597 | 0.0003 | 0.0439 | 4.0432 |
2501 | 87 | 3057 | 0.4108 | 0.0192 | 0.3731 | 0.4485 | 0.0004 | 0.0467 | 4.6897 |
3203 | 59 | 1944 | 0.4858 | 0.0202 | 0.4462 | 0.5255 | 0.0004 | 0.0416 | 3.1956 |
3202 | 42 | 1046 | 0.4221 | 0.0247 | 0.3736 | 0.4706 | 0.0006 | 0.0585 | 2.6301 |
1101 | 38 | 1198 | 0.3788 | 0.0347 | 0.3107 | 0.4469 | 0.0012 | 0.0916 | 6.1659 |
3206 | 32 | 836 | 0.3968 | 0.0252 | 0.3474 | 0.4462 | 0.0006 | 0.0635 | 2.2273 |
0901 | 20 | 743 | 0.5236 | 0.0529 | 0.4198 | 0.6273 | 0.0028 | 0.1010 | 8.3883 |
1301 | 20 | 738 | 0.4899 | 0.0338 | 0.4236 | 0.5562 | 0.0011 | 0.0690 | 3.3902 |
2101 | 20 | 505 | 0.4522 | 0.0391 | 0.3756 | 0.5289 | 0.0015 | 0.0864 | 3.1216 |