2.1 Fundamentos básicos de R
y Rstudio
R
es un lenguaje colaborativo, el cual permite que la comunidad vaya haciendo aportes al desarrollo de funciones dentro de paquetes o librerías. Alguna de las librerías más usadas para el análisis de bases de datos son las siguientes:
dplyr
es un paquete enfocado en el trabajo con bases de datos rectangulares (Wickham et al. 2023). Entre sus principales propiedades están 1) la identificación de herramientas de manipulación de datos más importantes necesarias para el análisis de datos y hacerlas fáciles de usar desdeR
; 2) proporcionar un rendimiento rápido y eficiente para los datos almacenados en la memoria del computador; 3) utilizar la misma interfaz para trabajar con datos sin importar dónde o cómo estén almacenados, ya sea en un marco de datos, una tabla de datos o una base de datos.tidyverse
es una colección de paquetes disponibles enR
y orientados a la manipulación, importación, exploración y visualización de datos y que se utiliza exhaustivamente en ciencia de datos (Wickham et al. 2019). El uso detidyverse
permite facilitar el trabajo estadístico y la generación de procesamientos reproducibles.readstata13
permite leer y escribir todos los formatos de archivo de Stata (versión 17 y anteriores) en un marco de datosR
(Garbuszus y Jeworutzki 2023). Se admiten las versiones de formato de archivo de datos 102 a 119. para leer las bases de datos deSTATA
. Además, el paquete admite muchas características del formato Stata dta, como conjuntos de etiquetas en diferentes idiomas o calendarios comerciales.survey
ha sido elaborado por Thomas Lumley y nos proporciona funciones enR
útiles para analizar datos provenientes de encuestas complejas (Lumley 2016). Alguno de los parámetros que se pueden estimar usando este paquete son medias, totales, razones, cuantiles, tablas de contingencias, modelos de regresión, modelos loglineales, entre otros.srvyr
permite utilizar el operadorpipeline
(%>%
) en las consultas que se realizan con el paquetesurvey
(Freedman Ellis y Schneider 2023).ggplot2
es un paquete de visualización de datos para el lenguajeR
que implementa lo que se conoce como la gramática de los gráficos, que no es más que una representación esquemática y en capas de lo que se dibuja en dichos gráficos, como lo pueden ser los marcos y los ejes, el texto de los mismos, los títulos, así como, por supuesto, los datos o la información que se grafica, el tipo de gráfico que se utiliza, los colores, los símbolos y tamaños, entre otros (Wickham 2016).TeachingSampling
permite al usuario extraer muestras probabilísticas y hacer inferencias a partir de una población finita basada en varios diseños de muestreo. Entre los diseño empleados en esta librería están: Muestreo Aleatorio Simple (MAS), Muestreo estratificado, Muestreo en varias etapas, muestreos proporcionales al tamaño, entre otros (Gutiérrez 2020b).samplesize4surveys
permite calcular el tamaño de muestra requerido para la estimación de totales, medias y proporciones bajo diseños de muestreo complejos (Gutiérrez 2020a).
Antes de poder utilizar las diferentes funciones que cada librería tiene, es necesario descargarlas de antemano de la web. El comando install.packages
permite realizar esta tarea. Note que algunas librerías pueden depender de otras, así que para poder utilizarlas es necesario instalar también las dependencias.
install.packages("dplyr")
install.packages("tidyverse")
install.packages("readstata13")
install.packages("survey")
install.packages("srvyr")
install.packages("ggplot2")
install.packages("TeachingSampling")
install.packages("samplesize4surveys")
Una vez instaladas las librerías hay que informarle al software que vamos a utilizarlas con el comando library
. Nótese que es necesario haber instalado las librerías para poder utilizarlas.