5.2 Estimación puntual

La estimación precisa de tamaños absolutos y proporciones en encuestas de hogares es fundamental para obtener datos representativos que reflejen la realidad demográfica y socioeconómica de una población. Estas cifras sirven como base para la toma de decisiones de política pública, para la asignación de recursos y para el diseño de programas sociales.

La capacidad de entender la distribución de categorías específicas, como situación de pobreza, estado de ocupación, escolaridad, entre otras, aporta información valiosa para abordar desigualdades y promover el desarrollo equitativo.

5.2.1 Estimaciones de tamaños

En esta sección se realizarán los procesos de estimación de variables categóricas. En primera instancia, uno de los parámetros más importantes es el tamaño de una población, que representa la cardinalidad de ese conjunto; es decir, el número total de integrantes que lo componen. En términos de notación, el tamaño de la población se estima de la siguiente manera:

\[\begin{eqnarray} \hat{N}_{\omega} = \sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i} \end{eqnarray}\]

De la misma manera, la estimación del tamaño en una subpoblación está definida por una variable dicotómica \(I(y_i = d)\), que toma el valor uno si el individuo \(i\) pertenece a la categoría \(d\) en la variable discreta, está dada por la siguiente expresión:

\[\begin{eqnarray} \hat{N}^d_{\omega} = \sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}I(y_i = d) \end{eqnarray}\]

A continuación, se presenta la forma apropiada para estimar los tamaños de la población finita y sus subpoblaciones.

diseno %>%
  group_by(Zone) %>%
  cascade(n = unweighted(n()),
          Nd = survey_total(vartype = c("se", "ci")),
          .fill = "Poblacional") %>%
  arrange(desc(Zone))
## # A tibble: 3 × 6
##   Zone            n      Nd Nd_se  Nd_low  Nd_upp
##   <chr>       <int>   <dbl> <dbl>   <dbl>   <dbl>
## 1 Urban        1308  78164. 2847.  72526.  83802.
## 2 Rural        1297  72102. 3062.  66039.  78165.
## 3 Poblacional  2605 150266. 4181. 141986. 158546.

En la tabla anterior, n denota el número de observaciones en la muestra por Zona y Nd denota la estimación del tamaño (número de personas) en cada subpoblación. Adicionalmente, en el código anterior se introdujo la función unweighted, que calcula resúmenes no ponderados a partir de un conjunto de datos de encuestas. Para el ejemplo, el tamaño de muestra en la zona rural fue de 1297 personas y para la urbana fue de 1308. Con esta información se logró estimar una población de 72102 con un error estándar de 3062 en la zona rural; además, se estimó una población de 78164 en la zona urbana con un error estándar de 2847. Así mismo, con una confianza del 95% se construyeron los intervalos de confianza para el tamaño de las poblaciones que, en la zona rural está entre 66038 y 78165, mientras que para la urbana están entre 72526 y 83801.

Ahora bien, empleando una sintaxis similar a la anterior, es posible estimar el número de personas en condición de pobreza extrema, pobreza relativa y personas no pobres como sigue:

diseno %>%
  group_by(Poverty) %>%
  summarise(Nd = survey_total(vartype = c("se", "ci")))
## # A tibble: 3 × 5
##   Poverty      Nd Nd_se Nd_low  Nd_upp
##   <fct>     <dbl> <dbl>  <dbl>   <dbl>
## 1 NotPoor  91398. 4395. 82696. 100101.
## 2 Extreme  21519. 4949. 11719.  31319.
## 3 Relative 37349. 3695. 30032.  44666.

De la tabla anterior podemos concluir que, la cantidad estimada de personas que no se encuentran en pobreza es de 91398: mientras que 37348 personas se encuentran en pobreza y 21518 en pobreza extrema. Los demás parámetros estimados se interpretan de la misma manera que para la estimación desagregada por zona. En forma similar, es posible estimar el número total de personas que están por debajo de la línea de pobreza.

diseno %>%
  group_by(pobreza) %>%
  summarise(Nd = survey_total(vartype = c("se", "ci")))
## # A tibble: 2 × 5
##   pobreza     Nd Nd_se Nd_low  Nd_upp
##     <dbl>  <dbl> <dbl>  <dbl>   <dbl>
## 1       0 91398. 4395. 82696. 100101.
## 2       1 58868. 5731. 47519.  70216.

Concluyendo que, 58867 personas están por debajo de la línea de pobreza con un error estándar de 5731 y un intervalo de confianza que va desde 47518 hasta 70216.

Otra variable de interés en encuestas de hogares es el estado de ocupación de las personas. A continuación, se muestra el código computacional que estima el tamaño de cada una de sus categorías:

diseno %>%
  group_by(Employment) %>%
  summarise(Nd = survey_total(vartype = c("se", "ci")))
## # A tibble: 4 × 5
##   Employment     Nd Nd_se Nd_low Nd_upp
##   <fct>       <dbl> <dbl>  <dbl>  <dbl>
## 1 Unemployed  4635.  761.  3129.  6141.
## 2 Inactive   41465. 2163. 37183. 45748.
## 3 Employed   61877. 2540. 56847. 66907.
## 4 <NA>       42289. 2780. 36784. 47794.

De los resultados de la función, se puede estimar que 4634 personas están desempleadas con un intervalo de confianza entre 3128 y 6140. Además, se estima que 41465 personas están inactivas, con un intervalo de confianza entre 37182 y 45747. Por último, se estima que 61877 personas están ocupadas con un intervalo de confianza entre 36784 y 47793.

5.2.2 Estimación de proporciones

La estimación de una proporción para una variable de respuesta binaria requiere una extensión directa del estimador de razón mostrado en el capítulo anterior. Como lo mencionan Heeringa, West, y Berglund (2017), al recodificar las categorías de respuesta originales en una sola variable indicadora \(y_{i}\) con valores posibles de 1 y 0 (por ejemplo, sí = 1, no = 0), se define el estimador de una proporción de la siguiente manera:

\[\begin{eqnarray} \hat{p}_{\omega}^d = \frac{\hat{N}^d_{\omega}}{\hat{N}_{\omega}} = \frac{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}\ I(y_i = d)}{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}} \end{eqnarray}\]

Aplicando Linealización de Taylor al anterior estimador, se tiene que su varianza está dada por la siguiente expresión:

\[ var\left(\hat{p}_{\omega}^d\right) \dot{=} \frac{var\left(\hat{N}^{d}_{\omega}\right)+(\hat{p}_{\omega}^d)^{2}var\left(\hat{N}_{\omega}\right)-2\,\hat{p}_{\omega}^d\,cov\left(\hat{N}^{d}_{\omega},\hat{N}_{\omega}\right)}{(\hat{N}_{\omega})^{2}} \]

Es normal observar que muchos paquetes estadísticos opten por generar estimaciones de proporciones y errores estándar en la escala de porcentaje. R genera las estimaciones de proporciones dentro del intervalo [0,1]. A continuación, se presenta el código computacional para estimar la proporción de personas por zona:

diseno %>%
  group_by(Zone) %>%
  summarise(prop = survey_mean(vartype = c("se", "ci"),
                               proportion = TRUE))
## # A tibble: 2 × 5
##   Zone   prop prop_se prop_low prop_upp
##   <chr> <dbl>   <dbl>    <dbl>    <dbl>
## 1 Rural 0.480  0.0140    0.452    0.508
## 2 Urban 0.520  0.0140    0.492    0.548

Como se pudo observar, se usó la función survey_mean para la estimación. Sin embargo, con el parámetro proportion = TRUE, se le indica a R que lo que se desea estimar es una proporción. Para este ejemplo se puede estimar que el 47.9% de las personas viven en zona rural obteniendo un intervalo de confianza comprendido entre (45.2%, 50.7%); además el 52% de las personas viven en la zona urbana con un intervalo de confianza de (49.2%, 54.7%).

La librería survey tiene implementado una función específica para estimar proporciones la cual es survey_prop que genera los mismos resultados mostrados anteriormente. Le queda al lector la decisión de usar la función con la que más cómodo se sienta. A continuación, se muestra un ejemplo del uso de la función survey_prop.

diseno %>%
  group_by(Zone) %>%
  summarise(prop = survey_prop(vartype = c("se", "ci")))
## # A tibble: 2 × 5
##   Zone   prop prop_se prop_low prop_upp
##   <chr> <dbl>   <dbl>    <dbl>    <dbl>
## 1 Rural 0.480  0.0140    0.452    0.508
## 2 Urban 0.520  0.0140    0.492    0.548

Como es bien sabido en la literatura especializada, cuando la proporción de interés estimada está cerca de cero o de uno, los límites del intervalo de confianza tradicional, basados en el diseño de muestreo, pueden salirse de los rangos permitidos para las proporciones. Lo anterior no tendría ninguna interpretación por la naturaleza del parámetro. Es por esto que, para solventar este problema, se pueden realizar estimaciones alternativas de los intervalos de confianza basados en el diseño de muestreo como lo proponen Rust, Hsu, y Westat (2007) y Dean y Pagano (2015). De esta manera, el intervalo de confianza utilizando la transformación \(Logit\left(p\right)\) está dado por:

\[ IC\left[logit\left(p^d\right)\right] = \left\{ ln\left(\frac{\hat{p}_{\omega}^d}{1-\hat{p}_{\omega}^d}\right)\pm\frac{t_{1-\alpha/2,\,gl} \times se\left(\hat{p}_{\omega}^d\right)}{\hat{p}_{\omega}^d\left(1-\hat{p}_{\omega}^d\right)}\right\} \]

Por tanto, el intervalo de confianza para \(p^d\) sería:

\[\begin{eqnarray} IC\left(p^d\right) = \left\{ \frac{exp\left[ln\left(\frac{\hat{p}_{\omega}^d}{1-\hat{p}_{\omega}^d}\right)\pm\frac{t_{1-\alpha/2,\,gl}\times se\left(\hat{p}_{\omega}^d\right)}{\hat{p}_{\omega}^d\left(1-\hat{p}_{\omega}^d\right)}\right]}{1+exp\left[ln\left(\frac{\hat{p}_{\omega}^d}{1-\hat{p}_{\omega}^d}\right)\pm\frac{t_{1-\alpha/2,\,gl}\times se\left(\hat{p}_{\omega}^d\right)}{\hat{p}_{\omega}^d\left(1-\hat{p}_{\omega}^d\right)}\right]}\right\} \end{eqnarray}\]

A continuación, siguiendo con la base de ejemplo, se estima la proporción de hombres y mujeres en pobreza y no pobreza junto con su error estándar e intervalos de confianza.

diseno %>%
  group_by(pobreza, Sex) %>%
  summarise(prop = survey_prop(vartype = c("se", "ci"))) 
## # A tibble: 4 × 6
## # Groups:   pobreza [2]
##   pobreza Sex     prop prop_se prop_low prop_upp
##     <dbl> <chr>  <dbl>   <dbl>    <dbl>    <dbl>
## 1       0 Female 0.529  0.0124    0.505    0.554
## 2       0 Male   0.471  0.0124    0.446    0.495
## 3       1 Female 0.524  0.0159    0.492    0.555
## 4       1 Male   0.476  0.0159    0.445    0.508

Como se puede observar, se ha estimado que entre las personas en condición de pobreza, el 52.3% son mujeres y el 47.6% son hombres; generando intervalos de confianza al 95% de (49.2%, 55.5%) para las mujeres y (44.5%, 50.7%) para los hombres.

En la librería survey existe una alternativa para estimar tablas de proporciones utilizando la función svyby. Los argumentos que requiere la función se definen a partir de la la variable que se desea estimar (formula), las categorías por la cual se desea estimar (by), el diseño muestral (desing) y el parámetro que se desea estimar (FUN). A continuación, se ejemplifica el uso de la función:

tab_Sex_Pobr <- svyby(
  formula = ~ Sex,
  by =  ~ pobreza,
  design = diseno,
  FUN = svymean
)

tab_Sex_Pobr
##   pobreza SexFemale   SexMale se.SexFemale se.SexMale
## 0       0 0.5291800 0.4708200   0.01242026 0.01242026
## 1       1 0.5236123 0.4763877   0.01586237 0.01586237

Para la estimación de los intervalos de confianza (que coinciden con los generados anteriormente usando la funicón group_by.) se utiliza la función confint como sigue:

confint(tab_Sex_Pobr) 
##                 2.5 %    97.5 %
## 0:SexFemale 0.5048367 0.5535232
## 1:SexFemale 0.4925226 0.5547019
## 0:SexMale   0.4464768 0.4951633
## 1:SexMale   0.4452981 0.5074774

Otro análisis de interés relacionado con tablas de doble entrada en encuestas de hogares es estimar el porcentaje de desempleados por sexo.

tab_Sex_Ocupa <- svyby(
  formula = ~ Sex,
  by = ~ Employment,
  design = diseno,
  FUN = svymean
)
tab_Sex_Ocupa
##            Employment SexFemale   SexMale se.SexFemale se.SexMale
## Unemployed Unemployed 0.2726730 0.7273270   0.05351318 0.05351318
## Inactive     Inactive 0.7703406 0.2296594   0.02340005 0.02340005
## Employed     Employed 0.4051575 0.5948425   0.01851986 0.01851986

De la anterior salida se puede estimar que, dentro de los desempleado, el 27.2% son mujeres y el 72.7% son. Por la naturaleza simétrica de las proporciones con dos únicos grupos, los errores estándares para estas estimaciones coinciden y se estiman en 5.3%. Los intervalos de confianza se muestran a continuación:

confint(tab_Sex_Ocupa) 
##                          2.5 %    97.5 %
## Unemployed:SexFemale 0.1677891 0.3775570
## Inactive:SexFemale   0.7244773 0.8162038
## Employed:SexFemale   0.3688592 0.4414557
## Unemployed:SexMale   0.6224430 0.8322109
## Inactive:SexMale     0.1837962 0.2755227
## Employed:SexMale     0.5585443 0.6311408

Si ahora el objetivo es estimar la pobreza, pero por las distintas regiones que se tienen en la base de datos, lo primero que se debe realizar es la conversión de la variable pobreza, la cual de de tipo numérica, en tipo factor; luego se realiza la estimación con la función svyby.

svyby(
  formula = ~ as.factor(pobreza),
  by = ~ Region,
  design =  diseno,
  FUN = svymean
)
##              Region as.factor(pobreza)0 as.factor(pobreza)1
## Norte         Norte           0.6410318           0.3589682
## Sur             Sur           0.6561536           0.3438464
## Centro       Centro           0.6346152           0.3653848
## Occidente Occidente           0.5991839           0.4008161
## Oriente     Oriente           0.5482079           0.4517921
##           se.as.factor(pobreza)0 se.as.factor(pobreza)1
## Norte                 0.05547660             0.05547660
## Sur                   0.04348901             0.04348901
## Centro                0.07858599             0.07858599
## Occidente             0.04670473             0.04670473
## Oriente               0.08849644             0.08849644

De lo anterior se puede concluir que, en la región Norte, el 35% de las personas están en estado de pobreza mientras que en el sur es el 34%. La pobreza más alta se tiene en la región oriente con una estimación de 45%.

Si el interés ahora se centra en estimar proporciones en subpoblaciones desagregadas, por zona, el código computacional apropiado es el siguiente:

sub_Urbano %>%
  group_by(Sex) %>%
  summarise(prop = survey_prop(vartype = c("se", "ci")))
## # A tibble: 2 × 5
##   Sex     prop prop_se prop_low prop_upp
##   <chr>  <dbl>   <dbl>    <dbl>    <dbl>
## 1 Female 0.537  0.0130    0.511    0.563
## 2 Male   0.463  0.0130    0.437    0.489

Arrojando como resultado una estimación enn donde el 53.6% de las mujeres y 46.4% de los hombres viven en la zona urbana con intervalos de confianza entre (51%, 56.2%) y (43.7%, 48.9%), respectivamente. Realizando el mismo ejercicio anterior, pero ahora en la zona rural se tiene:

sub_Rural %>%
  group_by(Sex) %>%
  summarise(n = unweighted(n()),
            prop = survey_prop(vartype = c("se", "ci")))
## # A tibble: 2 × 6
##   Sex        n  prop prop_se prop_low prop_upp
##   <chr>  <int> <dbl>   <dbl>    <dbl>    <dbl>
## 1 Female   679 0.516 0.00824    0.500    0.533
## 2 Male     618 0.484 0.00824    0.467    0.500

De donde se estima que el 51.6% de las mujeres y el 48.4% de los hombres viven en la zona rural con intervalos de confianza de (49.9%, 53.2%) y (46.7%, 50.0%), respectivamente. Ahora bien, si nos centramos solo en la población de hombres en la base de datos y se desea estimar la proporción de hombres por zona, el código computacional es el siguiente:

sub_Hombre %>%
  group_by(Zone) %>%
  summarise(prop = survey_prop(vartype = c("se", "ci")))
## # A tibble: 2 × 5
##   Zone   prop prop_se prop_low prop_upp
##   <chr> <dbl>   <dbl>    <dbl>    <dbl>
## 1 Rural 0.491  0.0178    0.455    0.526
## 2 Urban 0.509  0.0178    0.474    0.545

En la anterior tabla se puede observar que el 49% de los hombres están en la zona rural y el 51% en la zona urbana. Si se realiza ahora el mismo ejercicio para la mujeres, el código computacional es el siguiente:

sub_Mujer %>%
  group_by(Zone) %>%
  summarise(prop = survey_prop(vartype = c("se", "ci")))
## # A tibble: 2 × 5
##   Zone   prop prop_se prop_low prop_upp
##   <chr> <dbl>   <dbl>    <dbl>    <dbl>
## 1 Rural 0.470  0.0140    0.443    0.498
## 2 Urban 0.530  0.0140    0.502    0.557

De la tabla anterior se puede inferir que, el 47% de las mujeres están en la zona rural y el 52% en la zona urbana. Observando también intervalos de confianza al 95% de (44%, 49%) y (50%, 55%) para las zonas rural y urbana, respectivamente.

Si, dentro de la base de datos filtrada por hombres, ahora se desea estimar por varios niveles de desagregación, se debería recurrir al uso de la función group_by, la cual hace posible combinar dos o más variables dentro de un filtro. Por ejemplo, si se desea estimar la proporción de hombres por zona y en estado de pobreza, se realiza de la siguiente manera:

sub_Hombre %>%
  group_by(Zone, Poverty) %>%
  summarise(prop = survey_prop(vartype = c("se", "ci")))
## # A tibble: 6 × 6
## # Groups:   Zone [2]
##   Zone  Poverty   prop prop_se prop_low prop_upp
##   <chr> <fct>    <dbl>   <dbl>    <dbl>    <dbl>
## 1 Rural NotPoor  0.549  0.0626   0.424     0.668
## 2 Rural Extreme  0.198  0.0675   0.0958    0.364
## 3 Rural Relative 0.254  0.0372   0.187     0.334
## 4 Urban NotPoor  0.660  0.0366   0.584     0.728
## 5 Urban Extreme  0.113  0.0245   0.0726    0.171
## 6 Urban Relative 0.227  0.0260   0.180     0.283

De la salida anterior se puede estimar que, en la ruralidad, el 19% de los hombres están en pobreza extrema, mientras que en la zona urbana el 11% lo está. Por otro lado, se estima que el 54% de los hombres que viven en la zona rural no están en pobreza mientras que, en la zona urbana el 65% no está en esta condición.

Otro parámetro de interés es estimar en encuestas de hogares es la proporción de personas en condición de pobreza asociada a la edad; por ejemplo, personas menores y mayores de 18 años. A continuación, ejemplificamos la estimación de estos subgrupos cruzado por pobreza:

diseno %>%
  group_by(edad_18, pobreza) %>%
  summarise(Prop = survey_prop(vartype =  c("se", "ci")))
## # A tibble: 4 × 6
## # Groups:   edad_18 [2]
##   edad_18     pobreza  Prop Prop_se Prop_low Prop_upp
##   <chr>         <dbl> <dbl>   <dbl>    <dbl>    <dbl>
## 1 < 18 anios        0 0.498  0.0373    0.425    0.572
## 2 < 18 anios        1 0.502  0.0373    0.428    0.575
## 3 >= 18 anios       0 0.665  0.0298    0.603    0.721
## 4 >= 18 anios       1 0.335  0.0298    0.279    0.397

De la anterior salida se puede observar que, el 50% de los menores de edad y el 33% de los mayores de edad están en estado de pobreza. Al observar los intervalos de confianza para los menores de edad en estado de pobreza se puede observar que, dicha estimación puede llegar, con una confianza del 95% a 57% mientras que a los mayores de edad puede llegar a 39%.

Como se mencionó al inicio del capítulo, es posible categorizar una variable de tipo cuantitativo como por ejemplo la edad y cruzarla con la variable que categoriza la empleabilidad. A continuación, se estiman las proporciones de mujeres por edad y condición de ocupación:

sub_Mujer %>%
  mutate(edad_rango =
           case_when(Age >= 18 & Age <= 35  ~ "18 - 35",
                     TRUE ~ "Otro")) %>%
  group_by(edad_rango, Employment) %>%
  summarise(Prop = survey_prop(vartype =  c("se", "ci"))) 
## # A tibble: 7 × 6
## # Groups:   edad_rango [2]
##   edad_rango Employment   Prop Prop_se Prop_low Prop_upp
##   <chr>      <fct>       <dbl>   <dbl>    <dbl>    <dbl>
## 1 18 - 35    Unemployed 0.0289 0.00914  0.0154    0.0537
## 2 18 - 35    Inactive   0.517  0.0379   0.442     0.591 
## 3 18 - 35    Employed   0.455  0.0357   0.385     0.526 
## 4 Otro       Unemployed 0.0102 0.00403  0.00462   0.0222
## 5 Otro       Inactive   0.353  0.0207   0.313     0.395 
## 6 Otro       Employed   0.255  0.0217   0.214     0.300 
## 7 Otro       <NA>       0.382  0.0223   0.339     0.427

De la anterior tabla se puede observar, entre otros que, de las mujeres con edades entre 18 y 35 años el 2.8% están desempleadas, mientras que el 45% están empleadas. Análisis similares se pueden hacer para los demás rangos de edades.

References

Dean, Natalie, y Marcello Pagano. 2015. «Evaluating Confidence Interval Methods for Binomial Proportions in Clustered Surveys». Journal of Survey Statistics and Methodology 3 (4): 484-503. https://doi.org/10.1093/jssam/smv024.
Heeringa, Steven G., Brady T. West, y Patricia A. Berglund. 2017. Applied survey data analysis. Chapman y Hall CRC statistics en the social y behavioral sciences series. CRC Press.
Rust, Keith F., Valerie Hsu, y Westat. 2007. «Confidence Intervals for Statistics for Categorical Variables from Complex Samples». En. https://api.semanticscholar.org/CorpusID:195852485.