2.1 Fundamentos básicos de R y Rstudio

R es un lenguaje colaborativo, el cual permite que la comunidad vaya haciendo aportes al desarrollo de funciones dentro de paquetes o librerías. Alguna de las librerías más usadas para el análisis de bases de datos son las siguientes:

  • dplyr es un paquete enfocado en el trabajo con bases de datos rectangulares (Wickham et al. 2023). Entre sus principales propiedades están 1) la identificación de herramientas de manipulación de datos más importantes necesarias para el análisis de datos y hacerlas fáciles de usar desde R; 2) proporcionar un rendimiento rápido y eficiente para los datos almacenados en la memoria del computador; 3) utilizar la misma interfaz para trabajar con datos sin importar dónde o cómo estén almacenados, ya sea en un marco de datos, una tabla de datos o una base de datos.

  • tidyverse es una colección de paquetes disponibles en R y orientados a la manipulación, importación, exploración y visualización de datos y que se utiliza exhaustivamente en ciencia de datos (Wickham et al. 2019). El uso de tidyverse permite facilitar el trabajo estadístico y la generación de procesamientos reproducibles.

  • readstata13 permite leer y escribir todos los formatos de archivo de Stata (versión 17 y anteriores) en un marco de datos R (Garbuszus y Jeworutzki 2023). Se admiten las versiones de formato de archivo de datos 102 a 119. para leer las bases de datos de STATA. Además, el paquete admite muchas características del formato Stata dta, como conjuntos de etiquetas en diferentes idiomas o calendarios comerciales.

  • survey ha sido elaborado por Thomas Lumley y nos proporciona funciones en R útiles para analizar datos provenientes de encuestas complejas (Lumley 2016). Alguno de los parámetros que se pueden estimar usando este paquete son medias, totales, razones, cuantiles, tablas de contingencias, modelos de regresión, modelos loglineales, entre otros.

  • srvyr permite utilizar el operador pipeline (%>%) en las consultas que se realizan con el paquete survey (Freedman Ellis y Schneider 2023).

  • ggplot2 es un paquete de visualización de datos para el lenguaje R que implementa lo que se conoce como la gramática de los gráficos, que no es más que una representación esquemática y en capas de lo que se dibuja en dichos gráficos, como lo pueden ser los marcos y los ejes, el texto de los mismos, los títulos, así como, por supuesto, los datos o la información que se grafica, el tipo de gráfico que se utiliza, los colores, los símbolos y tamaños, entre otros (Wickham 2016).

  • TeachingSampling permite al usuario extraer muestras probabilísticas y hacer inferencias a partir de una población finita basada en varios diseños de muestreo. Entre los diseño empleados en esta librería están: Muestreo Aleatorio Simple (MAS), Muestreo estratificado, Muestreo en varias etapas, muestreos proporcionales al tamaño, entre otros (Gutiérrez 2020b).

  • samplesize4surveys permite calcular el tamaño de muestra requerido para la estimación de totales, medias y proporciones bajo diseños de muestreo complejos (Gutiérrez 2020a).

Antes de poder utilizar las diferentes funciones que cada librería tiene, es necesario descargarlas de antemano de la web. El comando install.packages permite realizar esta tarea. Note que algunas librerías pueden depender de otras, así que para poder utilizarlas es necesario instalar también las dependencias.

install.packages("dplyr")
install.packages("tidyverse")
install.packages("readstata13") 
install.packages("survey")
install.packages("srvyr")
install.packages("ggplot2")
install.packages("TeachingSampling")
install.packages("samplesize4surveys")

Una vez instaladas las librerías hay que informarle al software que vamos a utilizarlas con el comando library. Nótese que es necesario haber instalado las librerías para poder utilizarlas.

rm(list = ls())

library("dplyr")
library("tidyverse")
library("readstata13") 
library("survey")
library("srvyr")
library("ggplot2")
library("TeachingSampling")
library("samplesize4surveys")

References

Freedman Ellis, Greg, y Ben Schneider. 2023. srvyr: ’dplyr’-Like Syntax for Summary Statistics of Survey Data. https://CRAN.R-project.org/package=srvyr.
Garbuszus, Jan Marvin, y Sebastian Jeworutzki. 2023. readstata13: Import ’Stata’ Data Files. https://CRAN.R-project.org/package=readstata13.
———. 2020a. samplesize4surveys: Sample Size Calculations for Complex Surveys. https://CRAN.R-project.org/package=samplesize4surveys.
———. 2020b. TeachingSampling: Selection of Samples and Parameter Estimation in Finite Population. https://CRAN.R-project.org/package=TeachingSampling.
Lumley, Thomas. 2016. «survey: analysis of complex survey samples».
Wickham, Hadley. 2016. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse». Journal of Open Source Software 4 (43): 1686. https://doi.org/10.21105/joss.01686.
Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, y Davis Vaughan. 2023. dplyr: A Grammar of Data Manipulation. https://CRAN.R-project.org/package=dplyr.