5.1 Tamaño de población y subpoblaciones en encuestas de hogares
En el análisis de encuestas de hogares, resulta esencial determinar el tamaño de las subpoblaciones, es decir, identificar cuántas personas u hogares pertenecen a categorías específicas y qué proporción representan dentro del total poblacional. Este tipo de estimaciones permite caracterizar el perfil demográfico y socioeconómico de la población, información clave para orientar la asignación de recursos, el diseño de políticas públicas y la formulación de programas sociales.
Así, es de gran utilidad conocer cuántas personas se encuentran por debajo de la línea de pobreza, cuántas no tienen empleo o cuántas han alcanzado determinado nivel educativo. Analizar cómo se distribuyen los individuos entre distintas categorías ofrece información indispensable para reducir brechas y avanzar hacia un desarrollo inclusivo.
La estimación del tamaño de una población o subpoblación se realiza a partir de variables categóricas, que segmentan a la población en grupos mutuamente excluyentes. Estas categorías pueden corresponder, por ejemplo, a quintiles de ingreso, estados de ocupación o niveles educativos alcanzados. El tamaño poblacional hace referencia al número total de individuos u hogares que, en la base de datos de la encuesta, pertenecen a una categoría determinada. Para obtener estas estimaciones, se combinan las respuestas de los encuestados con los pesos muestrales, que indican cuántas personas u hogares representa cada unidad de la muestra dentro de la población total.
El estimador del tamaño de la población se define como:
\[\hat{N} = \sum_{h=1}^{H} \sum_{i \in s_{1h}} \sum_{k \in s_{hi}} w_{hik}\]
donde \(s_{hi}\) corresponde a la muestra de hogares o individuos en la UPM \(i\) del estrato \(h\); \(s_{1h}\) representa la muestra de UPM seleccionadas en el estrato \(h\); y \(w_{hik}\) es el peso o factor de expansión de la unidad \(k\) en la UPM \(i\) del estrato \(h\).
La estimación del tamaño de una subpoblación sigue el mismo principio que el cálculo del tamaño poblacional total, pero se enfoca en un subconjunto definido por una característica específica. Para determinar cuántas personas pertenecen a una categoría particular, se identifica dicho grupo en la base de datos y se suman sus pesos muestrales. Esto permite cuantificar grupos de interés específicos y conocer su tamaño dentro de la población:
\[\hat{N}_d = \sum_{h=1}^{H} \sum_{i \in s_{1h}} \sum_{k \in s_{hi}} w_{hik} I(y_{hik}=d)\]
donde \(I(y_{hik}=d)\) es una variable binaria que toma el valor de 1 si la unidad \(k\) de la UPM \(i\) en el estrato \(h\) pertenece a la categoría \(d\) de la variable discreta \(y\), y 0 en caso contrario. Si \(d\) fue utilizada en la calibración de los pesos, el valor de \(\hat{N}_d\) coincidirá con el control externo aplicado.
Estimaciones de totales en R
En esta sección se presentan los procedimientos para estimar tamaños de población y subpoblaciones usando R, con el diseño muestral definido previamente. Por ejemplo, para estimar el tamaño de la población por zona:
tamano_zona <- diseno %>% group_by(Zone) %>%
summarise( n = unweighted(n()),
Nd = survey_total(vartype = c("se","ci")))
tamano_zona## # A tibble: 2 × 6
## Zone n Nd Nd_se Nd_low Nd_upp
## <chr> <int> <dbl> <dbl> <dbl> <dbl>
## 1 Rural 1297 72102. 3062. 66039. 78165.
## 2 Urban 1308 78164. 2847. 72526. 83802.
En la tabla resultante, n indica el número de observaciones en la muestra por zona y Nd representa la estimación del total de observaciones en la población. La función unweighted() calcula resúmenes no ponderados a partir de los datos muestrales.
Por ejemplo, el tamaño de muestra en la zona rural fue de 1297 personas y en la urbana de 1308. Esto permitió estimar una población de 72,102 (desviación estándar 3,062) en la zona rural y 78,164 (desviación estándar 2,847) en la zona urbana. Con un nivel de confianza del 95%, los intervalos de confianza fueron:
- Zona rural: (66,038.5, 78,165.4)
- Zona urbana: (72,526.2, 83,801.7)
De manera similar, es posible estimar el número de personas en condición de pobreza extrema, pobreza y no pobres:
tamano_pobreza <- diseno %>% group_by(Poverty) %>%
summarise(Nd = survey_total(vartype = c("se","ci")))
tamano_pobreza## # A tibble: 3 × 5
## Poverty Nd Nd_se Nd_low Nd_upp
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 NotPoor 91398. 4395. 82696. 100101.
## 2 Extreme 21519. 4949. 11719. 31319.
## 3 Relative 37349. 3695. 30032. 44666.
Estos cálculos permiten obtener estimaciones precisas y sus intervalos de confianza para cada subpoblación, facilitando el análisis socioeconómico y la toma de decisiones basadas en evidencia.
Otra variable de interés en encuestas de hogares es conocer el estado de ocupación de las personas. A continuación, se muestra el código computacional:
tamano_ocupacion <- diseno %>%
group_by(Employment) %>%
summarise( Nd = survey_total(vartype = c("se","ci")))
tamano_ocupacion## # A tibble: 4 × 5
## Employment Nd Nd_se Nd_low Nd_upp
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 Unemployed 4635. 761. 3129. 6141.
## 2 Inactive 41465. 2163. 37183. 45748.
## 3 Employed 61877. 2540. 56847. 66907.
## 4 <NA> 42289. 2780. 36784. 47794.
De los resultados de la estimación se puede concluir que, 4634.8 personas están desempleadas con un intervalo de confianza de (3128.6, 6140.9). 41465.2 personas están inactivas con un intervalo de confianza de (37182.6, 45747.8) y por último, 61877.0 personas empleadas con intervalos de confianza (36784.2, 47793.5).
Utilizando la función group_by es posible obtener resultados por más de un nivel de agregación. A continuación, se muestra la estimación ocupación desagregada por niveles de pobreza:
tamano_ocupacion_pobreza <- diseno %>%
group_by(Employment, Poverty) %>%
cascade( Nd = survey_total(vartype = c("se","ci")), .fill = "Total") %>%
data.frame()
tamano_ocupacion_pobreza## Employment Poverty Nd Nd_se Nd_low Nd_upp
## 1 Unemployed NotPoor 1768.375 405.3765 965.6891 2571.061
## 2 Unemployed Extreme 1169.201 348.1340 479.8603 1858.541
## 3 Unemployed Relative 1697.231 457.8077 790.7262 2603.736
## 4 Unemployed Total 4634.807 760.6242 3128.6948 6140.919
## 5 Inactive NotPoor 24346.008 1736.2770 20908.0064 27784.010
## 6 Inactive Extreme 6421.825 1320.7349 3806.6383 9037.012
## 7 Inactive Relative 10697.414 1460.2792 7805.9155 13588.913
## 8 Inactive Total 41465.248 2162.8040 37182.6798 45747.816
## 9 Employed NotPoor 44600.347 2596.1915 39459.6282 49741.065
## 10 Employed Extreme 5127.531 1121.6461 2906.5601 7348.503
## 11 Employed Relative 12149.142 1346.6159 9482.7078 14815.576
## 12 Employed Total 61877.020 2540.0762 56847.4153 66906.624
## 13 Total Total 150266.000 4181.3587 141986.4921 158545.508
## 14 <NA> NotPoor 20683.603 1256.6158 18195.3777 23171.827
## 15 <NA> Extreme 8800.209 2979.9150 2899.6792 14700.738
## 16 <NA> Relative 12805.115 1551.0291 9733.9220 15876.307
## 17 <NA> Total 42288.926 2779.9913 36784.2652 47793.586
De lo cual se puede concluir, entre otros que, 44600.3 personas que trabajan no son pobres con un intervalo de confianza (39459.6, 49741.0) y 6421.8 inactivas están en pobreza extrema con un intervalo de confianza de (3806.6, 9037.0).