6.4 Diagramas de dispersión (Scatterplots)

Los diagramas de dispersión son ideales para explorar relaciones entre dos variables continuas. Permiten detectar patrones, tendencias y posibles asociaciones en los datos. En el contexto de encuestas con diseño muestral complejo, es importante reflejar que las distintas observaciones pueden tener diferentes pesos de muestreo. Para tamaños de muestra pequeños o moderados, esto se puede mostrar mediante puntos de tamaños variables, donde el tamaño del símbolo corresponde al peso de cada observación.

Según Lumley (2010), cuando se trabaja con conjuntos de datos grandes, graficar todos los puntos puede resultar confuso. Existen varias estrategias para manejar este problema:

  1. Submuestreo: Seleccionar una submuestra aleatoria proporcional a los pesos de muestreo. Esto mantiene la representatividad y facilita la visualización sin perder precisión.

  2. Diagramas de dispersión con hexágonos (hexbin plots): Dividir el área del gráfico en una cuadrícula de hexágonos y representar cada hexágono con sombreado o tamaño proporcional a la suma de pesos de las observaciones dentro de él. Esta técnica condensa la información de manera clara.

  3. Diagramas de dispersión suavizados: En lugar de graficar cada punto, se estima una tendencia (por ejemplo, cuantiles de la variable y condicionados a x) y se suaviza a lo largo del eje x. Esto destaca patrones generales y reduce el desorden visual.

Los diagramas de dispersión ponderados permiten observar relaciones a nivel poblacional. Al incorporar los pesos de la encuesta y aplicar estrategias de visualización para conjuntos de datos grandes, estos gráficos ofrecen información clara y significativa sobre la asociación entre variables continuas. Ya sea usando puntos ponderados, hexbin plots o técnicas de suavizado, los scatterplots siguen siendo fundamentales para la exploración visual de datos en encuestas.

Para realizar este tipo de gráfico se usará la función geom_point. Para ejemplificar el uso de esta función, se graficarán las variables ingresos y gastos como se muestra a continuación:

plot19_Ponde <- ggplot( 
  data = encuesta,
      aes(
      y = Income,
      x = Expenditure,
      weight = wk)) +
  geom_point() +
  theme_cepal()
plot19_Ponde

Note, que en este caso el parámetro weight no está aportando información visual al gráfico. El parámetro weight se puede usar para controlar el tamaño de los puntos, y así, tener un mejor panorama del comportamiento de la muestra:

plot20_Ponde <- ggplot(
  data = encuesta,
    aes(y = Income, x = Expenditure)) +
  geom_point(aes(size = wk), alpha = 0.3) +
  theme_cepal()
plot20_Ponde

Otra forma de usar la variable wk, es asignar la intensidad del color según el valor de la variable:

plot21_Ponde <- ggplot(
  data = encuesta,
    aes(y = Income, x = Expenditure)) +
  geom_point(aes(col = wk), alpha = 0.3) +
  theme_cepal()
plot21_Ponde

Se puede extender las bondades de los gráfico de ggplot2 para obtener mayor información de las muestra. Por ejemplo, agrupar los datos por Zona. Para lograr esto se introduce el parámetro shape:

plot22_Ponde <- ggplot(
  data = encuesta,
    aes(y = Income, 
        x = Expenditure,
        shape = Zone)) + 
  geom_point(aes(size = wk, color = Zone), alpha = 0.3) +
  labs(size = "Peso") + scale_color_manual(values = colorZona) +
  theme_cepal()
plot22_Ponde

De forma similar se puede obtener el resultado por sexo:

plot23_Ponde <- ggplot(
  data = encuesta,
    aes(
      y = Income,
      x = Expenditure,
      shape = Sex)) +
  geom_point(aes(
    size = wk,
    color = Sex),
  alpha = 0.3) +
  labs(size = "Peso") +
  scale_color_manual(values = colorSex) +
  theme_cepal()
plot23_Ponde

Un resultado equivalente se obtiene por región:

plot24_Ponde <- ggplot(
  data = encuesta,
        aes(
      y = Income,
      x = Expenditure,
      shape = Region)) +
  geom_point(aes(
    size = wk,
    color = Region),
  alpha = 0.3) +
  labs(size = "Peso") +
  scale_color_manual(values = colorRegion) +
  theme_cepal()
plot24_Ponde