4.3 Estimación puntual
Después de realizar el análisis gráfico de las tendencias de las variables continuas de la encuesta, es necesario obtener las estimaciones puntuales de los parámetros que se midieron. Dichas estimaciones se obtienen de forma general o desagregado por niveles de acuerdo con las necesidades de la investigación. Entiéndase como estimaciones puntuales en el contexto de las encuestas de hogares a la estimación de totales, pormedios, razones, etc. Como lo menciona Heeringa, et al (2017) la estimación del total o promedio de una población y su varianza muestral ha jugado un papel muy importante en el desarrollo de la teoría del muestreo probabilístico, particularmente en las encuestas de hogares dado que, permiten dar un valor muy acertado de lo que puede estar pasando en los hogares estudiados y con ello tomar decisiones de política publica de manera informada.
4.3.1 Estimación de totales e intervalos de confianza
Una vez definido el diseño muestral, lo cual se hizo en la sección anterior), se procede a realizar los procesos de estimación de los parámetros de interés. Para efectos de este texto se iniciará con la estimación del total de los ingresos de los hogares.
En su mayoría, los paquetes estadístico actuales no utilizan técnicas avanzadas para estimar los totales de la población, por ejemplo, usar estimadores generales de regresión (GREG) o métodos de calibración. Sin embargo, Valiente et al. (2000) realizó una librería implementada en S-plus que premite realizar estos procedimientos de estimación, que se pueden escribir de manera sencilla en códigos en R (Valliant et al., 2013).
Para la estimación de totales con diseños muestrales complejos que incluya estratificación \(\left(h=1,2,...,H\right)\)y muestreo por conglomerados (cuyos conglomerados están dentro del estrato \(h\)) indexados por \(\alpha=1,2,...,a_{h}\), el estimador para el total se puede escribir como:
\[\begin{eqnarray*} \hat{Y}_{\omega} & = & \sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}y_{h\alpha i}. \end{eqnarray*}\]
El estimador insesgado de la varianza para este estimador es:
\[\begin{eqnarray*} var\left(\hat{Y}_{\omega}\right) & = & \sum_{h=1}^{H}\frac{a_{h}}{\left(a_{h}-1\right)}\left[\sum_{\alpha=1}^{a_{h}}\left(\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}y_{h\alpha i}\right)^{2}-\frac{\left({ \sum_{\alpha=1}^{a_{h}}}\omega_{h\alpha i}y_{h\alpha i}\right)^{2}}{a_{h}}\right] \end{eqnarray*}\]
Como se puede observar, calcular la estimación del total y su varianza estimada es complejo. Sin embargo, dichos cálculos se pueden hacer en R
mediante la función svytotal
y el intervalos de confianza se calcula con la función confint
, ambos usando la librería survey
. A continuación, se muestran los códigos:
<- svytotal(~Income, diseno, deff=T, )
total_Ingresos total_Ingresos
## total SE DEff
## Income 85793667 4778674 11
confint(total_Ingresos, level = 0.95)
## 2.5 % 97.5 %
## Income 76427637 95159697
Los argumentos que utiliza de la función svytotal
con muy sencillos. Para el ejemplo, se le introduce primero la variable en la cual está la información que se desea estimar (Income). Posterior a esto, se introduce el diseño muestral del cual proviene la muestra y, por último, se indica si desea que se reporte el deff de la estimación o no.
Por otro lado, para el cálculo del intervalo de confianza, lo único que requiere es indicarle a la función confint
el estimador y la confianza requerida.
Paras seguir ilustrando el uso de la función svytotal
y de confint
, estimemos el total de gastos de los hogares, pero ahora el intervalo de confianza se calculará al 90% de confianza. Los siguientes códigos realizan las estimaciones:
<- svytotal (~Expenditure, diseno, deff=T)
total_gastos total_gastos
## total SE DEff
## Expenditure 55677504 2604138 10.222
confint(total_gastos, level = 0.9)
## 5 % 95 %
## Expenditure 51394077 59960931
Si el objetivo ahora es estimar el total de los ingreso de los hogares pero discriminado por sexo, se utilizará ahora la función cascade
de la libraría srvyr
, la cual permite agregar
la suma de las categorías al final la tabla. También se utilizará la función group_by
la cual permite obtener resultados agrupados por los niveles de interés.
%>% group_by(Sex) %>%
diseno cascade(Total = survey_total(
level = 0.95,
Income, vartype = c("se", "ci")),
.fill = "Total ingreso")
## # A tibble: 3 × 5
## Sex Total Total_se Total_low Total_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Female 44153820. 2324452. 39551172. 48756467.
## 2 Male 41639847. 2870194. 35956576. 47323118.
## 3 Total ingreso 85793667. 4778674. 76331414. 95255920.
Como se pudo observar en lo códigos anteriores, otra forma de obtener las estimaciones del total, su desviación estándar y el intervalo de confianza es usando el argumento vartype
e indicándole las opciones “se”, “ci” respectivamente.
4.3.2 Estimación de la media e intervalo de confianza
La estimación de la media poblacional es un parámetro muy importante en las encuestas de hogares, dado que, por ejemplo, uno de los indicadores trazadores en este tipo de encuestas son los ingresos medios por hogar. Además, este tipo de parámetros no permiten describir y analizar las tendencias centrales de estas variables en poblaciones de interés. Según Gutiérrez (2016) un estimador de la media poblacional se puede escribir como una razón no lineal de dos totales de población finitas estimados como sigue:
\[\begin{eqnarray*} \bar{Y}_{\omega} & = & \frac{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}y_{h\alpha i}}{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}}\\ & = & \frac{\hat{Y}}{\hat{N}}. \end{eqnarray*}\]
Como una observación tenga en cuenta que, si \(y\) es una variable binaria, la media ponderada estima la proporción de la población. Por otro lado, como \(\bar{Y}_{\omega}\) no es una estadística lineal, no existe una fórmula cerrada para la varianza de este estimador. Es por lo anterior que, se deben recurrir a usar métodos de remuestreo o series de Taylor. Para este caso en particular, usando series de Taylor el estimador insesgado de la varianza para este estimador es:
\[\begin{eqnarray*} var\left(\bar{Y}_{\omega}\right) & \dot{=} & \frac{var\left(\hat{Y}\right)+\bar{Y}_{\omega}^{2}\times var\left(\hat{N}\right)-2\times\bar{Y}_{\omega}\times cov\left(\hat{Y},\hat{N}\right)}{\hat{N}^{2}} \end{eqnarray*}\]
Como se puede observar, el cálculo de la estimación de la varianza tiene componentes complejos de calcular de manera analítica, como la covarianza entre el total estimado y el tamaño poblacional estimado. Sin embargo, R
tiene funciones que incorpora estos estimadores. A continuación, se presenta la sintaxis para hacer dichos cálculos.
<- svymean(~Income, diseno, deff=T)
Media_ingresos Media_ingresos
## mean SE DEff
## Income 570.945 28.478 8.8211
confint(Media_ingresos, level = 0.95)
## 2.5 % 97.5 %
## Income 515.1299 626.7607
Como se puede observar, los argumentos que utiliza la función svymean
para realizar la estimación de la media de los ingresos de los hogares y la desviación estándar estimada del estimador son similares a los utilizando con la función svytotal
. Similarmente ocurre con el intervalo de confianza.
Por otro lado, tal como se realizó con el total, a manera de ejemplo, se estima la media de los gastos en los hogares como sigue a continuación:
<- svymean (~Expenditure, diseno, deff=T)
Media_gastos Media_gastos
## mean SE DEff
## Expenditure 370.526 13.294 6.0156
confint(Media_gastos)
## 2.5 % 97.5 %
## Expenditure 344.4697 396.5829
También se pueden realizar estimaciones de la media por subgrupos siguiendo el mismo esquema mostrado para la función svytotal
. Particularmente, los gastos de los hogares discriminados por sexo es:
%>% group_by(Sex) %>%
diseno cascade(
Media = survey_mean(
level = 0.95,
Expenditure, vartype = c("se", "ci")),
.fill = "El gasto medio" ) %>%
arrange(desc(Sex))
## # A tibble: 3 × 5
## Sex Media Media_se Media_low Media_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Male 374. 16.1 343. 406.
## 2 Female 367. 12.3 343. 391.
## 3 El gasto medio 371. 13.3 344. 397.
Por zona,
%>% group_by(Zone) %>%
diseno cascade(
Media = survey_mean(
level = 0.95,
Expenditure, vartype = c("se", "ci")),
.fill = "El gasto medio")%>%
arrange(desc(Zone))
## # A tibble: 3 × 5
## Zone Media Media_se Media_low Media_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Urban 460. 22.2 416. 504.
## 2 Rural 274. 10.3 254. 294.
## 3 El gasto medio 371. 13.3 344. 397.
Por sexo y zona,
%>% group_by(Zone, Sex) %>%
diseno cascade(
Media = survey_mean(
level = 0.95,
Expenditure, vartype = c("se", "ci")),
.fill = "El gasto medio") %>%
arrange(desc(Zone), desc(Sex)) %>%
data.frame()
## Zone Sex Media Media_se Media_low Media_upp
## 1 Urban Male 469.8124 26.96068 416.4276 523.1973
## 2 Urban Female 450.8151 20.11853 410.9784 490.6518
## 3 Urban El gasto medio 459.6162 22.20655 415.6450 503.5874
## 4 Rural Male 275.3018 10.24848 255.0088 295.5948
## 5 Rural Female 272.6769 11.61470 249.6786 295.6751
## 6 Rural El gasto medio 273.9461 10.26141 253.6275 294.2647
## 7 El gasto medio El gasto medio 370.5263 13.29444 344.2020 396.8506
4.3.3 Estimación de medidas de dispersión y localización
En las encuestas de hogares siempre es necesario estimar medidas de dispersión de las variables estudiadas. Esto con el fin de, por ejemplo, ver qué tan disímiles son los ingresos medios de los hogares en un país determinado y con esto poder tomar acciones de política pública. Por lo anterior, es importante estudiar este parámetro en este texto. A continuación, se presenta el estimador de la desviación estándar:
\[\begin{eqnarray} s\left(y\right){}_{\omega} & = & \frac{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}\left(y_{h\alpha i}-\bar{Y}_{\omega}\right)^{2}}{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}-1} \end{eqnarray}\]
Para llevar a cabo la estimación en R
de la desviación estándar en encuestas de hogares, se utilizan la función survey_var
la cual se ejemplifica a continuación:
<- diseno %>% group_by(Zone) %>%
(sd_Est summarise(Sd = sqrt(
survey_var(
Income,level = 0.95,
vartype = c("se", "ci"),
) )))
## # A tibble: 2 × 5
## Zone Sd Sd_se Sd_low Sd_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Rural 310. 117. 263. 352.
## 2 Urban 582. 285. 422. 707.
Como se pudo ver en el ejemplo anterior, se estimó la desviación estándar de los ingresos por zona reportando el error estándar en la estimación y un intervalo de confianza al 95%. Los argumentos que utiliza la función survey_var
son similares a los usados en las funciones anteriores para estimar medias y totales.
Si el interés ahora se centra en estimar la desviación estándar clasificando por sexo y zona, los códigos computacionales son los siguientes:
<- diseno %>% group_by(Zone, Sex) %>%
(sd_Est summarise(Sd = sqrt(
survey_var(
Income,level = 0.95,
vartype = c("se", "ci"),
)%>% data.frame() )))
## Zone Sex Sd Sd_se Sd_low Sd_upp
## 1 Rural Female 294.8683 111.6203 249.5537 334.0921
## 2 Rural Male 325.7584 124.9643 274.2209 370.1890
## 3 Urban Female 568.3920 286.4585 400.7312 696.8166
## 4 Urban Male 596.7756 288.9435 436.8362 722.1194
Las medidas de posición no central (Percentiles) se diseñaron con el fin de conocer otros puntos característicos de la distribución de los datos que no son los valores centrales. Entre las medidas de posición no central más importantes están la mediana, cuartiles y percentiles. En la mayoría de las encuestas de hogares no solo estiman totales, medias y proporciones. En algunos indicadores es necesario estimar otros parámetros, por ejemplo, medianas y percentiles. Como lo menciona Tellez et al (2015) la mediana una medida de tendencia central la cual, a diferencia del promedio, no es fácilmente influenciada por datos atípicos y, por esto, se conoce como una medida robusta. La mediana es el valor que divide la población en dos partes iguales. Lo que implica que, la mitad de las observaciones de la característica de interés está por encima de la media y la otra mitad está por debajo.
Por otro lado, la estimación de percentiles de ingresos en un país determinado puede definir el inicio de una política pública. por ejemplo, poner a tributar aquellas personas naturales que son el 10% más alto de la distribución de los ingresos o por el contrario, generar subsidios de transporte a aquellas familias que están en el 15% inferior de la distribución de los ingresos.
La estimación de cuantiles (Loomis et al., 2005) se basa en los resultados relacionados con el estimador ponderado para totales, empleando una estimación de la función de distribución (CDF, por sus siglas en inglés) acumulada de la población. Específicamente, la CDF para una variable y en una población finita dada de tamaño \(N\) se define de la siguiente manera:
\[\begin{eqnarray*} F\left(x\right) & = & \frac{{ \sum_{i=1}^{N}}I\left(y_{i}\leq x\right)}{N} \end{eqnarray*}\]
Donde, \(I\left(y_{i}\leq x\right)\) es una variable indicadora la cual es igual a 1 si \(y_{i}\) es menor o igual a un valor específico \(x\), 0 en otro caso. Un estimador de la CDF en un diseño complejo (encuesta de hogares) de tamaño \(n\) está dado por:
\[\begin{eqnarray*} \hat{F}\left(x\right) & = & \frac{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}I\left(y_{i}\leq x\right)}{\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}} \end{eqnarray*}\]
Una vez estimada la CDF utilizando los pesos del diseño muestral, el cuantil q-ésimo de una variable \(y\) es el valor más pequeño de \(y\) tal que la CDF de la población es mayor o igual que \(q\). Como es bien sabido, la mediana es aquel valor donde la CDF es mayor o igual a 0.5 y, por tanto, la media estimada es aquel valor donde la estimación de CDF es mayor o igual a 0.5.
Siguiendo las recomendaciones de Heeringa et al (2017) para estimar cuantiles, primero se considera las estadísticas de orden que se denotan como \(y_{1},\ldots,y_{n}\), y encuentra el valor de \(j\) \((j=1,\ldots,n)\) tal que:
\[\begin{eqnarray*} & \hat{F}\left(y_{j}\right)\leq q\leq\hat{F}\left(y_{j+1}\right) \end{eqnarray*}\]
Ahora bien, la estimación del q-ésimo cuantil \(Y_{q}\) en un diseño de muestreo complejo está dado por:
\[\begin{eqnarray*} \hat{Y}_{q} & = & y_{j}+\frac{q-\hat{F}\left(y_{j}\right)}{\hat{F}\left(y_{j+1}\right)-\hat{F}\left(y_{j}\right)}\left(y_{j+1}-y_{j}\right) \end{eqnarray*}\]
Para la estimación de la varianza e intervalos de confianza de cuantiles, Kovar et al. (1988) muestra los resultados de un estudio de simulación en donde recomienda el uso de Balanced Repeated Replication (BRR) para estimarla.
Los estimadores y procedimientos antes mencionados para la estimación de percentiles y sus varianzas están implementados en R
. Particularmente, la estimación de la mediana se realiza usando la función survey_median
. A continuación, se muestra la sintaxis de cómo calcular la mediana de los gastos, la desviación estándar y el intervalo de confianza al 95% de los hogares en la base de datos de ejemplo.
%>% summarise(Mediana =
diseno survey_median(
Expenditure,level = 0.95,
vartype = c("se", "ci"),
))
## # A tibble: 1 × 4
## Mediana Mediana_se Mediana_low Mediana_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 298. 8.83 282. 317.
Como se puede observar, los argumentos de la función survey_median
son similares a los del total y la media.
Ahora bien, al igual que con los demás parámetros, si el objetivo ahora es estimar la mediana de los gastos de los hogares, pero esta vez discriminada por zona y también por sexo, el código computacional sería el siguiente:
%>% group_by(Zone) %>%
diseno summarise(Mediana =
survey_median(
Expenditure,level = 0.95,
vartype = c("se", "ci"),
))
## # A tibble: 2 × 5
## Zone Mediana Mediana_se Mediana_low Mediana_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Rural 241. 11.0 214. 258.
## 2 Urban 381. 19.8 337. 416.
%>% group_by(Sex) %>%
diseno summarise(Mediana =
survey_median(
Expenditure,level = 0.95,
vartype = c("se", "ci"),
))
## # A tibble: 2 × 5
## Sex Mediana Mediana_se Mediana_low Mediana_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Female 300. 10.5 282. 324.
## 2 Male 297. 9.29 277. 314.
Si el objetivo ahora es estimar cuantiles, por ejemplo, el cuantil 0.25 de los gastos de los hogares, se realizaría usando la función survey_quantile
como sigue:
%>%
diseno summarise(
Q = survey_quantile(
Expenditure,quantiles = 0.5,
level = 0.95,
vartype = c("se", "ci"),
interval_type = "score"
))
## # A tibble: 1 × 4
## Q_q50 Q_q50_se Q_q50_low Q_q50_upp
## <dbl> <dbl> <dbl> <dbl>
## 1 298. 12.0 265. 312.
si ahora se desea estimar el cuantil 0.25 pero discriminando por sexo y por zona se realizaría como sigue:
%>% group_by(Sex) %>%
diseno summarise(
Q = survey_quantile(
Expenditure,quantiles = 0.25,
level = 0.95,
vartype = c("se", "ci"),
interval_type = "score"
))
## # A tibble: 2 × 5
## Sex Q_q25 Q_q25_se Q_q25_low Q_q25_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Female 210. 14.9 169. 228.
## 2 Male 193. 10.4 163. 205.
%>% group_by(Zone) %>%
diseno summarise(
Q = survey_quantile(
Expenditure,quantiles = 0.25,
level = 0.95,
vartype = c("se", "ci"),
interval_type = "score"
))
## # A tibble: 2 × 5
## Zone Q_q25 Q_q25_se Q_q25_low Q_q25_upp
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Rural 160. 4.64 145. 163.
## 2 Urban 258. 9.05 256. 292.