4.1 Lectura de bases de datos y definición del diseño muestral
Las bases de datos (tablas de datos) pueden estar disponibles en una variedad de formatos (.xlsx
, .dat
, .cvs
, .sav
, .txt
, etc.), sin embargo, por experiencia es recomendable realizar la lectura de cualesquiera de estos formatos y proceder inmediatamente a guardarlo en un archivo de extensión .rds, la cual es nativa de R.
las extensiones rds permiten almacenar cualquier objeto o información en R
como pueden ser marco de datos, vectores, matrices, lista, entre otros. Los archivos .rds se carcaterizan por su flexibilidad a la hora de almacenarlos, sin limitarse a su base de datos, y por su perfecta compatibilidad con R.
Por otro lado, existe otro tipos de archivos propios de R
como lo es .Rdata. Sin embargo existen diferencia entre ellos. Por ejemplo, mientras que los archivos .rds pueden contener cualquier número de objetos, los .Rdata se limitan a un solo objeto. Es por lo anterior que, se recomeinda trabajar con archivos .rds.
Para ejemplifcar las sintaxis que se utilizarán en R
, se tomará la misma base del capítulo anterior la cual contiene una muestra de 2427 registro y proviene de un muestreo complejo. A continuación, se muestra la sintaxis en R
de cómo cargar un archivo con extensión .rsd
library(tidyverse)
<- readRDS("Data/encuesta.rds")
encuesta head(encuesta)
## HHID Stratum NIh nIh dI PersonID PSU Zone Sex Age MaritalST
## 1 idHH00031 idStrt001 9 2 4.5 idPer01 PSU0003 Rural Male 68 Married
## 2 idHH00031 idStrt001 9 2 4.5 idPer02 PSU0003 Rural Female 56 Married
## 3 idHH00031 idStrt001 9 2 4.5 idPer03 PSU0003 Rural Female 24 Married
## 4 idHH00031 idStrt001 9 2 4.5 idPer04 PSU0003 Rural Male 26 Married
## 5 idHH00031 idStrt001 9 2 4.5 idPer05 PSU0003 Rural Female 3 <NA>
## 6 idHH00041 idStrt001 9 2 4.5 idPer01 PSU0003 Rural Female 61 Widowed
## Income Expenditure Employment Poverty dki dk wk Region CatAge
## 1 409.87 346.34 Employed NotPoor 8 36 34.50371 Norte Más de 60
## 2 409.87 346.34 Employed NotPoor 8 36 33.63761 Norte 46-60
## 3 409.87 346.34 Employed NotPoor 8 36 33.63761 Norte 16-30
## 4 409.87 346.34 Employed NotPoor 8 36 34.50371 Norte 16-30
## 5 409.87 346.34 <NA> NotPoor 8 36 33.63761 Norte 0-5
## 6 823.75 392.24 Employed NotPoor 8 36 33.63761 Norte Más de 60
Una vez caraga la muestra de hogares en R
, el siguiente paso es definir el diseño muestral del cual proviene dicha muestra. Para esto se utilizará el paquete srvyr
el cual, como se definió anteriormente, surge como un complemento para survey
. Estas librerías permiten definir objetos tipo survey.design a los que se aplican las funciones de estimación y análisis de encuestas cargadas en el paquete srvyr
complementados con la programación de tubería ( %>% ) del paquete tidyverse
. A manera de ejemplificar los conceptos mencionados anteriormente, se definirá en R
el diseño de muestreo del cual proviene la muestra contenida en el objeto encuesta:
options(survey.lonely.psu = "adjust")
library(srvyr)
<- encuesta %>%
diseno as_survey_design(
strata = Stratum,
ids = PSU,
weights = wk,
nest = T)
En el código anterior se puede observar que, en primera instancia se debe definir la base de datos en la cual se encuentra la muestra seleccionada. Seguido de eso, se debe definir el tipo de objeto en R
con el cual se trabajará, para nuestro caso, será un objeto survey_design el cual se define usando la función as_survey_design. ahora bien, una vez definido el tipo de objeto se procede a definir los parámetros del diseño definido. Para este caso fue un diseño de muestreo estratificado y en varias etapas. Estos argumentos se definen dentro de la función as_survey_design como sigue. Para definir los estratos de utiliza el argumento strata y se define en qué columna están los estratos en mi base de datos. Ahora bien, para definir las UPM´s, en el argumento ids se definen la columna donde se encuntran los conglomerados seleccionados en la primera etapa. También, se definen los pesos de muestreo en el argumento weights y, por último, con el argumento nest=T se define que las UPM´s están dentro de los estratos.