4.1 Definición del diseño de muestreo
Las bases de datos (tablas de datos) pueden estar disponibles en una variedad de formatos (.xlsx
, .dat
, .cvs
, .sav
, .txt
, etc.); sin embargo, al momento de analizar una base de datos de encuestas de hogares, es recomendable realizar la lectura de cualesquiera de estos formatos y proceder inmediatamente a guardarlo en un archivo de extensión .rds
, la cual es nativa5 del software R
y permiten almacenar cualquier objeto o información (como pueden ser marcos de datos, vectores, matrices, listas, entre otros). Los archivos .rds
se carcaterizan por su flexibilidad a la hora de ser almacenados en memoria y por su perfecta compatibilidad con R
.
Para ejemplifcar las sintaxis que se utilizarán en R
, se tomará la misma base del capítulo anterior la cual contiene una muestra de 2427 registros y proviene de la estrategia de muestreo compleja que se implementó anteriormente (estratificado, bietápico con calibración de los factores de expansión). A continuación, se muestra la sintaxis en R
de cómo cargar un archivo con extensión .rds
.
## HHID Stratum NIh nIh dI PersonID PSU Zone Sex Age MaritalST
## 1 idHH00031 idStrt001 9 2 4.5 idPer01 PSU0003 Rural Male 68 Married
## 2 idHH00031 idStrt001 9 2 4.5 idPer02 PSU0003 Rural Female 56 Married
## 3 idHH00031 idStrt001 9 2 4.5 idPer03 PSU0003 Rural Female 24 Married
## 4 idHH00031 idStrt001 9 2 4.5 idPer04 PSU0003 Rural Male 26 Married
## 5 idHH00031 idStrt001 9 2 4.5 idPer05 PSU0003 Rural Female 3 <NA>
## 6 idHH00041 idStrt001 9 2 4.5 idPer01 PSU0003 Rural Female 61 Widowed
## Income Expenditure Employment Poverty dki dk wk Region CatAge
## 1 409.87 346.34 Employed NotPoor 8 36 34.50371 Norte Más de 60
## 2 409.87 346.34 Employed NotPoor 8 36 33.63761 Norte 46-60
## 3 409.87 346.34 Employed NotPoor 8 36 33.63761 Norte 16-30
## 4 409.87 346.34 Employed NotPoor 8 36 34.50371 Norte 16-30
## 5 409.87 346.34 <NA> NotPoor 8 36 33.63761 Norte 0-5
## 6 823.75 392.24 Employed NotPoor 8 36 33.63761 Norte Más de 60
Una vez cargada la base de datos de la muestra compleja en el ambiente de R
, el siguiente paso es definir el diseño de muestreo del cual proviene dicha muestra. Para esto se utilizará el paquete srvyr
el cual, como se definió anteriormente, surge como un complemento para el paquete survey
. Estas librerías permiten definir objetos tipo survey.design
a los que se aplican las funciones de estimación y análisis de encuestas cargadas en el paquete srvyr
complementados con la programación de tubería (%>%) del paquete tidyverse
. Para ejemplificar los conceptos mencionados anteriormente, se definirá en R
el diseño de muestreo del cual proviene la muestra contenida en el objeto encuesta
:
library(survey)
library(srvyr)
options(survey.lonely.psu = "adjust")
diseno <- encuesta %>%
as_survey_design(
strata = Stratum,
ids = PSU,
weights = wk,
nest = T
)
En el código anterior se puede observar que, en primera instancia se debe definir la base de datos en la cual se encuentra la muestra seleccionada. Seguido de eso, se debe definir el tipo de objeto en R
con el cual se trabajará, para nuestro caso, será un objeto tipo survey_design
, el cual se define usando la función as_survey_design
. Ahora bien, una vez establecido el tipo de objeto se procede a definir los parámetros del diseño complejo. Para este caso el diseño de muestreo fue estratificado y en varias etapas. Estos argumentos se definen dentro de la función as_survey_design
como sigue:
- Para definir los estratos, se utiliza el argumento
strata
incluyendo la columna específica en donde están los estratos de muestreo en la base de datos. - Para definir las UPM, se usa el argumento
ids
incluyendo la columna particular en donde se encuentran los conglomerados o unidades primarias de muestreo que fueron seleccionadas en la muestra de la primera etapa. - Para definir los factores de expansión, se acude al argumento
weights
. - Por último, con el argumento
nest = T
se hace explícito que las UPM están efectivamente anidadas dentro de los estratos de muestreo.
Con la función summary
es posible observar un resumen rápido del diseño de muestreo, en este caso conteninedo 119 estratos con 2 UPM por estrato, para un total de 238 UPM.
Además, como verificación adicional, es recomendable asegurarse que la suma de los factores de expansión en la muestra dé un resultado coherente. En este caso, esta suma es igual a 1.50266^{5}, que es el tamaño de la población de interés.
## [1] 150266
Como se mostró en capítulos anteriores, el diseño de muestreo permite dividir la muestra en sub grupos. La primera subdvisión de interés es por zona (urbano y rural), la cual corresponde también a un estrato de muestreo. Es decir, tanto en la zona urbana, como en la zona rural hay independencia en el muestreo. Esto básicamente implica que la selección en estas zonas no está relacionada. De hecho, no existe ninguna intersección en las UPM que componen estos estratos puesto que, por definición, si una UPM está localizadas en la zona urbana, no puede estar en la zona rural, y viceversa.
La segunda subdivisión de interés es por sexo. Sin embargo, esta subdivisión no conforma estratos independientes. En particular, nótese que, en la gran mayoría de casos, las UPM seleccionadas que contienen a hombres, serán las mismas que contengan a las mujeres.
Existen otro tipo de archivos propios de
R
como los.Rdata
. Sin embargo existen algunas diferencias importantes entre ellos. Por ejemplo, mientras que los archivos.rds
pueden contener cualquier número de objetos, los archivos.Rdata
se limitan a un solo objeto.↩︎