Capítulo 6 Análisis gráfico
En todo análisis de encuestas, el componente gráfico es fundamental para revisar tendencias en algunas variables de interés. La visualización gráfica es una herramienta que permite lograr una representación visual clara de la distribución de los datos; por ejemplo con gráficos de barras, histogramas o gráficos de dispersión, lo cual facilita la comprensión de la forma, la localización y la dispersión de la distribución de las variables. Además, permite identificar patrones, tendencias y datos atípicos que pueden no ser evidentes al examinar únicamente las estimaciones directas.
Es posible, además, visualizar diferencias entre variables o comparar la distribución de una variable en diferentes subgrupos de la población finita, por ejemplo, para la identificación de brechas. Las imágenes son poderosas para comunicar resultados a audiencias diversas que no necesariamente están en conocimiento de los pormenores técnicos que conlleva la estimación puntual de las estadísticas directas. Los gráficos son más accesibles y comprensibles para un público general en comparación con tablas de datos complejas, lo que facilita la comunicación de los resultados del análisis.
La visualización gráfica no solo mejora la comprensión de los datos, sino que también facilita la interpretación y comunicación de los resultados, haciendo que el análisis de encuestas de hogares sea más efectivo y accesible. Además, son muy necesarias las gráficas cuando el objetivo es corroborar algunos supuestos en el ajustes de modelos estadísticas, por ejemplo, varianzas constantes en los errores, normalidad, etc.
Las librerías especializadas en el manejo de datos de encuestas también tienen algunas opciones para la realización de gráficas. Sin embargo, uno de los paquetes más usados para representar de forma visual los resultados de las encuestas en R
es ggplot2
(Wickham 2016), el cual representa una opción potente y flexible para producir gráficos elegantes. Sin embargo,
Como es de costumbre, se inicia este capítulo cargando las librerías y bases de datos.
options(digits = 4)
library(survey)
library(srvyr)
library(convey)
library(TeachingSampling)
library(printr)
library(ggplot2)
library(patchwork)
data(BigCity, package = "TeachingSampling")
encuesta <- readRDS("Data/encuesta.rds")
A continuación, se define el diseño de muestreo de la encuesta y, para efectos de los ejemplos, se definen las siguientes variables:
diseno <- encuesta %>%
as_survey_design(
strata = Stratum,
ids = PSU,
weights = wk,
nest = T
) %>% mutate(
pobreza = ifelse(Poverty != "NotPoor", 1, 0),
desempleo = ifelse(Employment == "Unemployed", 1, 0),
edad_18 = case_when(Age < 18 ~ "< 18 anios",
TRUE ~ ">= 18 anios")
)
Como se mostró en capítulos anteriores, se divide la muestra en subgrupos para ejemplificar los conceptos que se mostrarán en este capítulo: