11.5 Proceso de estimación y predicción

source("Recursos/Día4/Sesion1/0Recursos/funciones_mrp.R")
fit <- readRDS("Recursos/Día4/Sesion1/Data/fit_ingresos.rds")

La información auxiliar disponible ha sido extraída del censo e imágenes satelitales

statelevel_predictors_df <-
  readRDS("Recursos/Día4/Sesion1/Data/statelevel_predictors_df_dam2.rds") %>% 
    mutate_at(.vars = c("luces_nocturnas",
                      "cubrimiento_cultivo",
                      "cubrimiento_urbano",
                      "modificacion_humana",
                      "accesibilidad_hospitales",
                      "accesibilidad_hosp_caminado"),
            function(x) as.numeric(scale(x)))
tba(statelevel_predictors_df  %>%  head(10))
dam2 modificacion_humana accesibilidad_hospitales accesibilidad_hosp_caminado cubrimiento_cultivo cubrimiento_urbano luces_nocturnas area1 sexo2 edad2 edad3 edad4 edad5 anoest2 anoest3 anoest4 anoest99 tiene_sanitario tiene_acueducto tiene_gas eliminar_basura tiene_internet piso_tierra material_paredes material_techo rezago_escolar alfabeta hacinamiento tasa_desocupacion id_municipio
00101 3.6127 -1.1835 -1.5653 -1.1560 7.2782 4.9650 1.0000 0.5224 0.2781 0.2117 0.1808 0.0725 0.2000 0.3680 0.2286 0.0193 0.0119 0.7946 0.0673 0.0810 0.6678 0.0033 0.0109 0.0111 0.3694 0.9247 0.1962 0.0066 100101
00201 -0.0553 0.4449 0.2100 0.0684 -0.0682 -0.1511 0.8904 0.4933 0.2726 0.1849 0.1520 0.0614 0.3149 0.3022 0.0775 0.0082 0.1005 0.7220 0.2261 0.1300 0.9276 0.0664 0.0812 0.0249 0.1501 0.7975 0.3014 0.0007 050201
00202 -0.3758 0.0000 0.1482 -0.2345 -0.2855 -0.4234 0.6799 0.4697 0.2804 0.1895 0.1430 0.0515 0.3757 0.2405 0.0148 0.0014 0.1322 0.9230 0.2693 0.2884 0.9759 0.0625 0.0986 0.0673 0.0278 0.7140 0.3454 0.0001 050202
00203 -0.9259 0.5732 -0.1402 -0.5511 -0.3822 -0.5612 0.5814 0.4601 0.2665 0.1733 0.1586 0.0713 0.3778 0.2463 0.0219 0.0052 0.2579 0.7602 0.4824 0.2589 0.9919 0.1937 0.2342 0.1238 0.0485 0.7104 0.2755 0.0001 050203
00204 -1.3166 1.1111 0.4438 -0.5027 -0.3835 -0.6042 0.5708 0.4663 0.2647 0.1683 0.1673 0.0757 0.3306 0.2402 0.0440 0.0049 0.1672 0.6375 0.5040 0.3837 0.9759 0.1403 0.1354 0.0176 0.0873 0.6737 0.2671 0.0002 050204
00205 -0.7474 2.1155 1.2271 -0.5838 -0.3345 -0.5909 0.6937 0.4633 0.2849 0.2107 0.1473 0.0583 0.2794 0.2821 0.0562 0.0067 0.3800 0.6596 0.5014 0.2852 0.9894 0.2309 0.2498 0.0459 0.1016 0.6751 0.4973 0.0001 050205
00206 0.5157 -0.1468 -0.1811 1.1894 -0.1191 -0.4022 0.9563 0.4557 0.2910 0.1814 0.1495 0.0626 0.3793 0.2815 0.0427 0.0052 0.1301 0.8817 0.2565 0.1495 0.9659 0.0629 0.0472 0.0337 0.0835 0.8027 0.2200 0.0001 050206
00207 1.7368 -0.7648 -0.4861 0.7170 -0.0609 0.0042 0.5201 0.4783 0.2898 0.1675 0.1464 0.0531 0.3552 0.2901 0.0328 0.0061 0.2434 0.5775 0.2758 0.0950 0.9911 0.0717 0.2004 0.1304 0.0714 0.7778 0.3936 0.0001 050207
00208 -0.5942 0.3212 -0.1697 -0.3627 -0.3044 -0.4750 0.6625 0.4334 0.2943 0.1875 0.1523 0.0654 0.3557 0.2486 0.0250 0.0054 0.1908 0.8251 0.4152 0.1450 0.9907 0.1458 0.1517 0.0852 0.0509 0.6897 0.3051 0.0001 050208
00209 -1.5280 3.0192 1.9428 -0.8078 -0.4046 -0.6423 0.6798 0.4311 0.2858 0.1687 0.1628 0.0701 0.3648 0.2645 0.0752 0.0061 0.1893 0.5760 0.4096 0.3557 0.9978 0.1097 0.0941 0.0292 0.1357 0.7680 0.2189 0.0001 050209

Obtener el modelo es solo un paso más, ahora se debe realizar la predicción en el censo, el cual a sido previamente estandarizado y homologado con la encuesta.

poststrat_df <- readRDS("Recursos/Día4/Sesion1/Data/censo_mrp_dam2.rds") %>% 
     left_join(statelevel_predictors_df) 
tba( poststrat_df %>% arrange(desc(n)) %>% head(10))
dam dam2 id_municipio nombre_region region area sexo edad anoest n modificacion_humana accesibilidad_hospitales accesibilidad_hosp_caminado cubrimiento_cultivo cubrimiento_urbano luces_nocturnas area1 sexo2 edad2 edad3 edad4 edad5 anoest2 anoest3 anoest4 anoest99 tiene_sanitario tiene_acueducto tiene_gas eliminar_basura tiene_internet piso_tierra material_paredes material_techo rezago_escolar alfabeta hacinamiento tasa_desocupacion
32 03201 103201 Región Ozama 10 1 2 2 3 78858 2.7794 -1.1311 -1.4114 -0.3529 4.1625 3.8009 0.9256 0.5173 0.2869 0.2158 0.1599 0.0502 0.2161 0.4041 0.1677 0.0161 0.0200 0.7131 0.0571 0.1791 0.7701 0.0102 0.0245 0.0153 0.2883 0.9252 0.1870 0.0074
32 03201 103201 Región Ozama 10 1 1 2 3 77566 2.7794 -1.1311 -1.4114 -0.3529 4.1625 3.8009 0.9256 0.5173 0.2869 0.2158 0.1599 0.0502 0.2161 0.4041 0.1677 0.0161 0.0200 0.7131 0.0571 0.1791 0.7701 0.0102 0.0245 0.0153 0.2883 0.9252 0.1870 0.0074
01 00101 100101 Región Ozama 10 1 1 2 3 76098 3.6127 -1.1835 -1.5653 -1.1560 7.2782 4.9650 1.0000 0.5224 0.2781 0.2117 0.1808 0.0725 0.2000 0.3680 0.2286 0.0193 0.0119 0.7946 0.0673 0.0810 0.6678 0.0033 0.0109 0.0111 0.3694 0.9247 0.1962 0.0066
01 00101 100101 Región Ozama 10 1 2 2 3 76002 3.6127 -1.1835 -1.5653 -1.1560 7.2782 4.9650 1.0000 0.5224 0.2781 0.2117 0.1808 0.0725 0.2000 0.3680 0.2286 0.0193 0.0119 0.7946 0.0673 0.0810 0.6678 0.0033 0.0109 0.0111 0.3694 0.9247 0.1962 0.0066
25 02501 012501 Región Cibao Norte 01 1 2 2 3 52770 1.4723 -0.9237 -1.0018 0.3619 1.3166 1.6641 0.8601 0.5084 0.2837 0.2250 0.1564 0.0596 0.2622 0.3832 0.1282 0.0114 0.0189 0.8665 0.1021 0.1307 0.7972 0.0134 0.0136 0.0160 0.2118 0.8939 0.1787 0.0044
25 02501 012501 Región Cibao Norte 01 1 1 2 3 51227 1.4723 -0.9237 -1.0018 0.3619 1.3166 1.6641 0.8601 0.5084 0.2837 0.2250 0.1564 0.0596 0.2622 0.3832 0.1282 0.0114 0.0189 0.8665 0.1021 0.1307 0.7972 0.0134 0.0136 0.0160 0.2118 0.8939 0.1787 0.0044
32 03201 103201 Región Ozama 10 1 1 1 2 50744 2.7794 -1.1311 -1.4114 -0.3529 4.1625 3.8009 0.9256 0.5173 0.2869 0.2158 0.1599 0.0502 0.2161 0.4041 0.1677 0.0161 0.0200 0.7131 0.0571 0.1791 0.7701 0.0102 0.0245 0.0153 0.2883 0.9252 0.1870 0.0074
01 00101 100101 Región Ozama 10 1 1 1 2 50015 3.6127 -1.1835 -1.5653 -1.1560 7.2782 4.9650 1.0000 0.5224 0.2781 0.2117 0.1808 0.0725 0.2000 0.3680 0.2286 0.0193 0.0119 0.7946 0.0673 0.0810 0.6678 0.0033 0.0109 0.0111 0.3694 0.9247 0.1962 0.0066
32 03201 103201 Región Ozama 10 1 2 1 2 49652 2.7794 -1.1311 -1.4114 -0.3529 4.1625 3.8009 0.9256 0.5173 0.2869 0.2158 0.1599 0.0502 0.2161 0.4041 0.1677 0.0161 0.0200 0.7131 0.0571 0.1791 0.7701 0.0102 0.0245 0.0153 0.2883 0.9252 0.1870 0.0074
01 00101 100101 Región Ozama 10 1 2 1 2 49010 3.6127 -1.1835 -1.5653 -1.1560 7.2782 4.9650 1.0000 0.5224 0.2781 0.2117 0.1808 0.0725 0.2000 0.3680 0.2286 0.0193 0.0119 0.7946 0.0673 0.0810 0.6678 0.0033 0.0109 0.0111 0.3694 0.9247 0.1962 0.0066

Note que la información del censo esta agregada.

11.5.1 Distribución posterior.

Para obtener una distribución posterior de cada observación se hace uso de la función posterior_epred de la siguiente forma.

epred_mat <- posterior_epred(fit, newdata = poststrat_df, type = "response")
dim(epred_mat)
dim(poststrat_df)

Como el interés es realizar comparaciones entre los países de la región se presenta la estimación del ingreso medio en términos de lineas de pobreza. Para esto procedemos así:

  • Obteniendo las lineas de pobreza por cada post-estrato
(
  lp <-
    readRDS("Recursos/Día4/Sesion1/Data/encuestaDOM21N1.rds") %>% distinct(area_ee, lp, li) %>%
    mutate(
      area = ifelse(
        haven::as_factor(area_ee, levels = "values") == 1 , "1", "0"),
      area_ee = NULL
    )
) %>%
  tba()
lp li area
5622.81 3159.09 1
4876.69 3061.23 0
5710.40 3193.03 1
4949.12 3094.12 0
5844.03 3291.64 1
5070.47 3189.68 0
5973.59 3377.04 1
5185.77 3272.42 0
  • Ingreso en términos de lineas de pobreza.
lp %<>% group_by(area) %>% summarise(lp = mean(lp),li = mean(li)) 
lp <- inner_join(poststrat_df,lp,by = "area") %>% select(lp)
epred_mat_pobreza_lp <- (exp(epred_mat)-1) <= lp$lp
epred_mat_pobreza_li <- (exp(epred_mat)-1) <= lp$li