2.6 Algunas estadísticas descriptivas sobre la base de datos

En este apartado se mostrará cómo se pueden utilizar las funciones de tidyverse para obtener estadísticas descriptivas de la base de datos. Nótese que es muy importante recalcar que, los siguientes resultados no tienen ninguna interpretación poblacional y se realizan con el único propósito de ilustrar el manejo de las bases de datos de las encuestas.

La función summarise permite conocer el total de los ingresos en la base de datos y la media de los ingresos sobre los respondientes de la muestra.

data1 %>%
  summarise(total.ing = sum(Income),
            media.ing = mean(Income))

##   total.ing media.ing
## 1  87893117  584.9169

También se puede calcular medias de manera agrupada. Particularmente, si se desea calcular la media de los ingresos por región, junto con el total de respondientes, se hace de la siguiente manera:

data1 %>%
  group_by(Region) %>%
  summarise(n = n(),
            media = mean(Income))

## # A tibble: 5 × 3
##   Region        n media
##   <fct>     <int> <dbl>
## 1 Norte     25396  509.
## 2 Sur       25898  644.
## 3 Centro    25944  701.
## 4 Occidente 33868  571.
## 5 Oriente   39160  530.

Si ahora el análisis de los ingresos se desea hacer por sexo se realiza de la siguiente manera:

data1 %>%
  group_by(Sex) %>%
  summarise(n = n(),
            media = mean(Income))

## # A tibble: 2 × 3
##   Sex        n media
##   <chr>  <int> <dbl>
## 1 Female 79190  579.
## 2 Male   71076  591.

La función summarise también permite conocer algunas medidas de localización de los ingresos en la base de datos.

data1 %>% summarise(
  mediana = median(Income),
  decil1 = quantile(Income, 0.1),
  decil9 = quantile(Income, 0.9),
  rangodecil = decil9 - decil1
)

##   mediana decil1  decil9 rangodecil
## 1  449.17 165.33 1126.33        961

Utilizando la función summarise también podemos conocer también el comportamiento variacional de los ingresos sobre los respondientes. A continuación, se calcula la varianza, la desviación estandar, el mínimo, el máximo, el rango y el rango intercuartílico de la variable ingreso en la base de datos.

data1 %>% summarise(
  varianza = var(Income),
  desv = sd(Income),
  mini = min(Income),
  maxi = max(Income),
  rango = maxi - mini,
  rangoiq = IQR(Income)
)

##   varianza     desv mini  maxi rango rangoiq
## 1 332463.4 576.5964   10 32920 32910  468.33

Por último, si se desea realizar el cálculo de la media, la desviación estándar y el rango de los ingresos por condición de ocupación se procede con el siguiente código:

data1 %>% group_by(Employment) %>%
  summarise(
    n = n(),
    media = mean(Income),
    desv = sd(Income),
    rangoiq = IQR(Income)
  )

## # A tibble: 4 × 5
##   Employment     n media  desv rangoiq
##   <fct>      <int> <dbl> <dbl>   <dbl>
## 1 Unemployed  4630  429.  375.    392.
## 2 Inactive   44104  532.  553.    439.
## 3 Employed   62188  661.  606.    529.
## 4 <NA>       39344  541.  558.    407.

Como se ha podido ejemplificar en este capítulo, son muchas las ventajas que ofrece R a la hora de realizar procesamientos con bases de datos. Más aún, el entorno de tidyverse hace que el cómputo en las bases sea muy eficiente. Además, su sintaxis es coherente y consistente en todos sus paquetes, lo que facilita la lectura y escritura de código. El uso de los operadores %>%, permite encadenar fácilmente una serie de operaciones, mejorando la claridad y la legibilidad del procesamiento.

Este ambiente también cuenta con una comunidad activa de usuarios y desarrolladores, así como una amplia documentación, lo que facilita la resolución de problemas y la mejora continua del análisis de datos. Asimismo, se integra bien con otras herramientas y paquetes en el ecosistema de R, lo que permite combinar diferentes enfoques para análisis de datos de manera efectiva. Este enfoque será usado durante el resto del documento para poder analizar de forma apropiada los datos que provienen de encuestas complejas.

Por último, este conjunto de librearía está en constante desarrollo y mejora, lo que garantiza que los usuarios tengan acceso a las últimas herramientas y técnicas para el análisis de datos en R.