2.6 Algunas estadísticas descriptivas sobre la base de datos
En este apartado se mostrará cómo se pueden utilizar las funciones de tidyverse
para obtener estadísticas descriptivas de la base de datos. Nótese que es muy importante recalcar que, los siguientes resultados no tienen ninguna interpretación poblacional y se realizan con el único propósito de ilustrar el manejo de las bases de datos de las encuestas.
La función summarise
permite conocer el total de los ingresos en la base de datos y la media de los ingresos sobre los respondientes de la muestra.
## total.ing media.ing
## 1 87893117 584.9169
También se puede calcular medias de manera agrupada. Particularmente, si se desea calcular la media de los ingresos por región, junto con el total de respondientes, se hace de la siguiente manera:
## # A tibble: 5 × 3
## Region n media
## <fct> <int> <dbl>
## 1 Norte 25396 509.
## 2 Sur 25898 644.
## 3 Centro 25944 701.
## 4 Occidente 33868 571.
## 5 Oriente 39160 530.
Si ahora el análisis de los ingresos se desea hacer por sexo se realiza de la siguiente manera:
## # A tibble: 2 × 3
## Sex n media
## <chr> <int> <dbl>
## 1 Female 79190 579.
## 2 Male 71076 591.
La función summarise
también permite conocer algunas medidas de localización de los ingresos en la base de datos.
data1 %>% summarise(
mediana = median(Income),
decil1 = quantile(Income, 0.1),
decil9 = quantile(Income, 0.9),
rangodecil = decil9 - decil1
)
## mediana decil1 decil9 rangodecil
## 1 449.17 165.33 1126.33 961
Utilizando la función summarise
también podemos conocer también el comportamiento variacional de los ingresos sobre los respondientes. A continuación, se calcula la varianza, la desviación estandar, el mínimo, el máximo, el rango y el rango intercuartílico de la variable ingreso en la base de datos.
data1 %>% summarise(
varianza = var(Income),
desv = sd(Income),
mini = min(Income),
maxi = max(Income),
rango = maxi - mini,
rangoiq = IQR(Income)
)
## varianza desv mini maxi rango rangoiq
## 1 332463.4 576.5964 10 32920 32910 468.33
Por último, si se desea realizar el cálculo de la media, la desviación estándar y el rango de los ingresos por condición de ocupación se procede con el siguiente código:
data1 %>% group_by(Employment) %>%
summarise(
n = n(),
media = mean(Income),
desv = sd(Income),
rangoiq = IQR(Income)
)
## # A tibble: 4 × 5
## Employment n media desv rangoiq
## <fct> <int> <dbl> <dbl> <dbl>
## 1 Unemployed 4630 429. 375. 392.
## 2 Inactive 44104 532. 553. 439.
## 3 Employed 62188 661. 606. 529.
## 4 <NA> 39344 541. 558. 407.
Como se ha podido ejemplificar en este capítulo, son muchas las ventajas que ofrece R
a la hora de realizar procesamientos con bases de datos. Más aún, el entorno de tidyverse
hace que el cómputo en las bases sea muy eficiente. Además, su sintaxis es coherente y consistente en todos sus paquetes, lo que facilita la lectura y escritura de código. El uso de los operadores %>%
, permite encadenar fácilmente una serie de operaciones, mejorando la claridad y la legibilidad del procesamiento.
Este ambiente también cuenta con una comunidad activa de usuarios y desarrolladores, así como una amplia documentación, lo que facilita la resolución de problemas y la mejora continua del análisis de datos. Asimismo, se integra bien con otras herramientas y paquetes en el ecosistema de R
, lo que permite combinar diferentes enfoques para análisis de datos de manera efectiva. Este enfoque será usado durante el resto del documento para poder analizar de forma apropiada los datos que provienen de encuestas complejas.
Por último, este conjunto de librearía está en constante desarrollo y mejora, lo que garantiza que los usuarios tengan acceso a las últimas herramientas y técnicas para el análisis de datos en R
.