4.2 Análisis gráfico: Histogramas y Boxplot
Una vez cargada la muestra a R
y definido el diseño muestral del cual proviene se pueden hacer los primeros análisis. Como es natural, se inician con análisis gráficos. A continuación, se muestran los códigos computacionales con los cuales se hacen histogramas en R
para la variable ingresos teniendo en cuenta el diseño muestral y los factores de expansión haciendo uso la función svyhist
de la librería survey
.
library(survey)
library(srvyr)
svyhist(
~ Income ,
diseno,main = "Ingresos por hogar",
col = "grey80",
xlab = "Ingreso",
probability = FALSE
)
Como se pudo observar en el código anterior, para generar un histograma teniendo en cuenta el diseño muestral se usó la función svyhist
. En primer lugar, se definió la variable a graficar, que para nuestro caso fue Income. Seguido, se define el diseño muestral utilizado en la encuesta. Luego, se definen los argumentos relacionados con la estética del gráfico como lo son: el título principal (main), el color (col) y el título horizontal (xlab). Finalmente, se define si el histograma es de frecuencias o probabilidades con el argumento probability. Para este ejemplo, se tomó la opción probability = False indicando que es un histograma de frecuencias.
Una pregunta que surge de manera natural es ¿cuál es la diferencia entre los histogramas sin usar los factores de expansión y utilizándolo? A continuación, se generan 3 histogramas, en el primero se grafica la variable ingreso utilizando los factores de expansión, en el segundo se grafica la misma variable sin usar los factores de expansión y en el tercero, se hace el gráfico poblacional.
library(survey)
data("BigCity", package = "TeachingSampling")
par(mfrow = c(1,3))
svyhist(~ Income,
main = "Ponderado",
diseno, col = "green", breaks = 50)
hist( encuesta$Income,
main = "Sin ponderar",
col = "red", prob = TRUE, breaks = 50)
hist(BigCity$Income,
main = "Poblacional",
col = "purple", prob = TRUE,
xlim = c(0, 2500), breaks = 500)
Uno de los análisis gráficos más comunes que se realizan ene encuestas de hogares están relacionados con subgrupos geográficos como lo son las zonas (urbano - rural) o también realizar desagregaciones temáticas como lo son por sexo (hombre mujer). A continuación, se muestra la sintaxis en R
como se realizan histogramas para hombres y mujeres mayores de 18 años:
<- diseno %>% filter(Sex == "Female")
sub_Mujer <- diseno %>% filter(Sex == "Male")
sub_Hombre
par(mfrow = c(1,2))
svyhist(
~ Income ,
design = subset(sub_Mujer, Age >= 18),
main = "Mujer",
breaks = 30,
col = "grey80",
xlab = "Ingreso")
svyhist(
~ Income ,
design = subset(sub_Hombre, Age >= 18),
main = "Hombre",
breaks = 30,
col = "grey80",
xlab = "Ingreso")
Como se puede observar, los argumentos utilizando para realizar los gráficos son los mismo que se utilizaron y ejemplificaron anteriormente. Cabe notar que la función subset permite hacer un subconjunto de la población, que para nuetro caso son aquellos hombres y mujeres mayores o iguales a 18 años.
Si el objetivo ahora es realizar análisis de localización y variablidad, por ejemplo, graficar Bloxplot teniendo en cuenta los factores de expansión, a continuación, se muestran las sintaxis de como realizarlo en R
.
<- diseno %>% filter(Zone == "Urban")
sub_Urbano <- diseno %>% filter(Zone == "Rural")
sub_Rural
par(mfrow = c(1,2))
svyboxplot(
~1 ,
Income
sub_Urbano,col = "grey80",
ylab = "Ingreso",
xlab = "Urbano")
svyboxplot(
~ 1 ,
Income
sub_Rural,col = "grey80",
ylab = "Ingreso",
xlab = "Rural")
Los argumentos usados en la función svyboxplot para generar el gráfico son muy similares a los usados en la función svyhist. Algo a recalcar el los argumentos de esta función es que el símbolo “Income ~ 1” hace referencia a que todas las personas pertenecen a un solo grupo que puede ser urbano o rural dependiendo del caso y por eso se requiere indicarle a R
esa restricción, lo cual se hace con el símbolo “~1”.