6.1 Análisis gráfico con la librería survey

Una vez cargada la base de datos que contiene la muestra en R y definido el diseño muestral del cual proviene, se pueden hacer los primeros análisis visuales. Como recomendación, se inicia con análisis gráficos que, gracias al principio de representatividad, reflejaran el comportamiento de las variables continuas, no en la muestra obtenida, sino en la población de estudio, a través de la muestra expandida con los pesos de muestreo.

Como ejemplo, a continuación, se muestran los códigos computacionales con los cuales se pueden realizar histogramas en R para la variable ingresos teniendo en cuenta el diseño muestral y los factores de expansión haciendo uso la función svyhist de la librería survey.

svyhist(
  ~ Income ,
  diseno,
  main = "Ingreso poblacional",
  col = "grey80",
  xlab = "Ingreso",
  probability = FALSE
)

Como se puede observar en el código anterior, para generar este histograma, se usó la función svyhist. En primer lugar, se definió la variable que se quiere visualizar, que para nuestro caso es Income. Seguido, se define el diseño muestral utilizado en la encuesta. Luego, los argumentos relacionados con la estética del gráfico como lo son: el título principal (main), el color (col) y el título horizontal (xlab). Finalmente, se establece si el histograma es de frecuencias o probabilidades con el argumento probability. Para este ejemplo, se tomó la opción probability = False indicando que es un histograma de frecuencias.

Por otro lado, uno de los análisis gráficos más comunes que se realizan en encuestas de hogares están relacionados con subgrupos geográficos como lo pueden ser las zonas (urbano - rural) o también realizar desagregaciones temáticas por sexo (hombre mujer). A continuación, se muestra la sintaxis en R de cómo se realizan histogramas para hombres y mujeres mayores de 18 años:

sub_Mujer  <- diseno %>%  filter(Sex == "Female")
sub_Hombre <- diseno %>%  filter(Sex == "Male")

par(mfrow = c(1, 2))

svyhist(
  ~ Income ,
  design = subset(sub_Mujer, Age >= 18),
  main = "Mujer",
  breaks = 30,
  col = "grey80",
  xlab = "Ingreso"
)

svyhist(
  ~ Income ,
  design = subset(sub_Hombre, Age >= 18),
  main = "Hombre",
  breaks = 30,
  col = "grey80",
  xlab = "Ingreso"
)

Como se puede observar, los argumentos utilizando para realizar los gráficos son los mismos que se utilizaron y ejemplificaron anteriormente. Cabe notar que la función subset permite hacer un subconjunto de la población, que para nuestro caso son aquellos hombres y mujeres con edad mayor o igual a 18 años.

Si el objetivo ahora es realizar un análisis gráfico de localización y variabilidad, es posible plantear un diagrama de cajas (boxplot), teniendo en cuenta los factores de expansión. A continuación, se muestra las sintaxis de cómo realizarlo en R, para ambas zonas: urbana y rural.

sub_Urbano <- diseno %>%  filter(Zone == "Urban")
sub_Rural  <- diseno %>%  filter(Zone == "Rural")

par(mfrow = c(1, 2))
svyboxplot(
  Income ~ 1 ,
  sub_Urbano,
  col = "grey80",
  ylab = "Ingreso",
  xlab = "Urbano"
)

svyboxplot(
  Income ~ 1 ,
  sub_Rural,
  col = "grey80",
  ylab = "Ingreso",
  xlab = "Rural"
)

Los argumentos usados en la función svyboxplot para generar el gráfico son muy similares a los usados en la función svyhist. Algo que se debe recalcar en los argumentos de esta función es que la sintaxis Income ~ 1 hace referencia a que todas las personas pertenecen a un solo grupo que puede ser urbano o rural, dependiendo del caso, y por eso se requiere indicarle a R esa restricción; esto se hace con el símbolo ~ 1.