3.1 Fundamentos básicos de R y Rstudio

R fue creado en 1992 en Nueva Zelanda por Ross Ihaka y Robert Gentleman. A manera introductoria, R es un software diseñado para realizar análisis estadístico tanto sencillos como complejos. Este software ha ganado popularidad en el gremio estadístico y no estadístico, puesto que su manejo es sencillo y, además, es de libre uso (puede descargarse en https://www.r-project.org), es decir, no requiere de ninguna licencia para su utilización. Como lo mencionan Santana Sepúlveda y Mateos Farfán (2014), R es un lenguaje de programación de libre distribución, bajo Licencia GNU, que se mantiene en un ambiente para el cómputo estadístico y gráfico. Este software está diseñado para utilizarse en distintos sistemas operativos como Windows, MacOS o Linux. El concepto de ambiente se enfoca en caracterizarlo como un sistema totalmente planificado y coherente, a diferencia de otros softwares de análisis de datos que suelen consistir en acumulaciones de herramientas específicas y poco flexibles.

Ahora bien, R es un lenguaje de programación, por lo que su interfaz puede resultar poco amigable para quienes inician en el lenguaje. Para facilitar su uso, se creó RStudio, un Entorno de Desarrollo Integrado (IDE, por sus siglas en inglés). Esto significa que RStudio es un programa que permite manejar R de manera más cómoda y visual, optimizando la experiencia de análisis y programación.

R es un software libre y de código abierto que ha ganado gran popularidad en el procesamiento de encuestas y la investigación social, convirtiéndose en una herramienta de elección para aplicar los desarrollos científicos y metodológicos más recientes en el análisis de datos de encuestas (R Core Team, 2024). Su carácter abierto permite que investigadores de todo el mundo aporten funciones y paquetes propios al Comprehensive R Archive Network (CRAN), poniéndolos a disposición de la comunidad académica y profesional. Entre sus recursos más destacados se encuentra el paquete samplesize4surveys (Gutiérrez, 2020), que facilita el cálculo de tamaños de muestra para individuos y hogares en encuestas repetidas, de panel y rotacionales. Asimismo, los paquetes sampling (Tillé y Matei, 2016) y TeachingSampling (Gutiérrez, 2015) ofrecen soporte para seleccionar muestras probabilísticas a partir de marcos de muestreo bajo diferentes diseños y algoritmos.

Para el análisis de datos de encuestas de hogares, el paquete survey (Lumley, 2024) permite especificar el diseño muestral mediante la función svydesign() y obtener estimaciones correctas de errores estándar. El paquete convey (Pessoa et al., 2024) complementa este proceso al facilitar el cálculo de medidas de desigualdad. En el ámbito del modelado de regresiones, svydiags (Valliant, 2024) incluye herramientas de diagnóstico como análisis de residuos, valores de apalancamiento, factores de inflación de varianza y pruebas de colinealidad, mientras que PracTools (Valliant et al., 2025) proporciona utilidades para el cálculo del tamaño de muestra, el diseño de muestreo, la estimación de efectos de diseño y el análisis de componentes de varianza en esquemas multietápicos.