3.4 Lectura de las bases de datos y manipulación

Es muy usual que al trabajar proyectos en R sea necesario importar bases de datos con información relevante para un estudio en particular. En Colombia, por ejemplo, en la Encuesta de Calidad de Vida (ECV, por sus siglas) es necesario, una vez se realiza el trabajo de campo, importar la información recolectada para poder ajustar los factores de expansión y posteriormente estimar los parámetros. Los formatos de bases de datos que R permite importar son diversos, entre ellos se tienen xlsx, csv, txt, STATA, etc. Particularmente, para la lectura de bases de datos provenientes de STATA 13 se realiza con la función read.dta13. Una vez leída la base de datos en el formato mencionado anteriormente se procede a transformar en el formato .RDS el cual es un formato más eficiente y propio de R. Para ejemplificar los procedimientos en R se utilizará la base de datos de Pesquisa Nacional por Amostra de Domicílios 2015 de Brasil la cual está en formato .dta el cual se lee en R con la función read.dta13. Posteriormente se transformará al formato .rds con la función saveRDS el cual es un formato propio de R y por último se cargar esta base. Lo pasos anteriores se realiza como sigue:

Primero se carga la base en formato dta con la librería read.dta13 y se guarda en formato rds con la función saveRDS `

data1 <- read.dta13("Z:/BC/BRA_2015N.dta")
saveRDS(data1, "../data/BRA_2015N.rds") 

Una vez guardada la base en nuestros archivos de trabajo, se procede a cargar la base a R con la función readRDS para poder utilizar toda la información que en ella se contiene.

data2 <- readRDS("Data/BRA_2015N.rds")

Una vez cargada la base de datos en R ésta se puede empezar a manipular según las necesidades de cada investigador. En este sentido, una de las primeras revisiones que se realizan al cargar las bases de datos es revisar su dimensión, es decir, chequear la cantidad de filas y columnas que tenga la base. Lo anterior se puede hacer con la función nrow. Dicha función identifica el número de registros (unidades efectivamente medidas) en la base de datos y la función ncol muestra el número de variables en la base de datos. Los códigos computacionales son los siguientes:

nrow(data2)
## [1] 356904
ncol(data2)
## [1] 109

Una forma resumida de revisar la cantidad de filas y columnas que tiene la base de datos es usar la función dim. Esta función nos devuelve un vector indicado en su primera componente la cantidad de fila y en su segundo la cantidad de columnas como se muestra a continuación:

dim(data2)
## [1] 356904    109

Es usual que en las encuestas de hogares las bases de datos sean muy extensas, es decir, contengan una cantidad importante de variables medidas (filas) y por lo general, el tamaño de la muestra de estos estudios con grandes. Es por lo anterior que, para poder visualizar dichas bases una vez cargadas en R, es necesario hacerlo de manera externa. Esto es, abrir una pestaña diferente en R y hacer la navegación de la base como un texto plano. Lo anterior se realiza con la función View como se muestra a continuación:

View(data2)

Visor de bases de datos de RStudio

Otro chequeo importante que se debe realizar al momento de cargar una base de datos en R es el reconocimiento de las variables que incluye. Esto se puede hacer utilizando la función names la cual identifica las variables de la base de datos.

names(data2)

La función names solo devuelve un vector un vector con los nombres de las variables que contiene la base. Sin embargo, si se quiere profundizar en qué información contiene cada variable, La función str muestra de manera compacta la estructura de un objeto y sus componentes. Para nuestra base se utilizaría de la siguiente manera:

str(data2)

Como se puede observar en la salida anterior, por ejemplo, la variable id_hogar es de tipo Entero al igual que id_pers mientras que cotiza_ee es un factor con 2 niveles. Como se observa, esta función es muy útil al momento de querer tener un panorama amplio del contenido y clase de cada variable en una base de datos, particularmente, en una encuesta de hogares en donde se tiene, por la misma estructura del estudio, muchas clases o tipos de variables medidas.