4.1 Definición del diseño de muestreo

Las bases de datos (tablas de datos) pueden estar disponibles en una variedad de formatos (.xlsx, .dat, .cvs, .sav, .txt, etc.); sin embargo, al momento de analizar una base de datos de encuestas de hogares, es recomendable realizar la lectura de cualesquiera de estos formatos y proceder inmediatamente a guardarlo en un archivo de extensión .rds , la cual es nativa⁵ del software R y permiten almacenar cualquier objeto o información (como pueden ser marcos de datos, vectores, matrices, listas, entre otros). Los archivos .rds se carcaterizan por su flexibilidad a la hora de ser almacenados en memoria y por su perfecta compatibilidad con R.

Para ejemplifcar las sintaxis que se utilizarán en R, se tomará la misma base del capítulo anterior la cual contiene una muestra de 2427 registros y proviene de la estrategia de muestreo compleja que se implementó anteriormente (estratificado, bietápico con calibración de los factores de expansión). A continuación, se muestra la sintaxis en R de cómo cargar un archivo con extensión .rds.

library(tidyverse)

encuesta <- readRDS("Data/encuesta.rds")
head(encuesta)

##        HHID   Stratum NIh nIh  dI PersonID     PSU  Zone    Sex Age MaritalST
## 1 idHH00031 idStrt001   9   2 4.5  idPer01 PSU0003 Rural   Male  68   Married
## 2 idHH00031 idStrt001   9   2 4.5  idPer02 PSU0003 Rural Female  56   Married
## 3 idHH00031 idStrt001   9   2 4.5  idPer03 PSU0003 Rural Female  24   Married
## 4 idHH00031 idStrt001   9   2 4.5  idPer04 PSU0003 Rural   Male  26   Married
## 5 idHH00031 idStrt001   9   2 4.5  idPer05 PSU0003 Rural Female   3      <NA>
## 6 idHH00041 idStrt001   9   2 4.5  idPer01 PSU0003 Rural Female  61   Widowed
##   Income Expenditure Employment Poverty dki dk       wk Region    CatAge
## 1 409.87      346.34   Employed NotPoor   8 36 34.50371  Norte Más de 60
## 2 409.87      346.34   Employed NotPoor   8 36 33.63761  Norte     46-60
## 3 409.87      346.34   Employed NotPoor   8 36 33.63761  Norte     16-30
## 4 409.87      346.34   Employed NotPoor   8 36 34.50371  Norte     16-30
## 5 409.87      346.34       <NA> NotPoor   8 36 33.63761  Norte       0-5
## 6 823.75      392.24   Employed NotPoor   8 36 33.63761  Norte Más de 60

Una vez cargada la base de datos de la muestra compleja en el ambiente de R, el siguiente paso es definir el diseño de muestreo del cual proviene dicha muestra. Para esto se utilizará el paquete srvyr el cual, como se definió anteriormente, surge como un complemento para el paquete survey. Estas librerías permiten definir objetos tipo survey.design a los que se aplican las funciones de estimación y análisis de encuestas cargadas en el paquete srvyr complementados con la programación de tubería (%>%) del paquete tidyverse. Para ejemplificar los conceptos mencionados anteriormente, se definirá en R el diseño de muestreo del cual proviene la muestra contenida en el objeto encuesta:

library(survey)
library(srvyr)

options(survey.lonely.psu = "adjust")

diseno <- encuesta %>%
  as_survey_design(
    strata = Stratum,
    ids = PSU,
    weights = wk,
    nest = T
  )

En el código anterior se puede observar que, en primera instancia se debe definir la base de datos en la cual se encuentra la muestra seleccionada. Seguido de eso, se debe definir el tipo de objeto en R con el cual se trabajará, para nuestro caso, será un objeto tipo survey_design, el cual se define usando la función as_survey_design. Ahora bien, una vez establecido el tipo de objeto se procede a definir los parámetros del diseño complejo. Para este caso el diseño de muestreo fue estratificado y en varias etapas. Estos argumentos se definen dentro de la función as_survey_design como sigue:

Para definir los estratos, se utiliza el argumento strata incluyendo la columna específica en donde están los estratos de muestreo en la base de datos.
Para definir las UPM, se usa el argumento ids incluyendo la columna particular en donde se encuentran los conglomerados o unidades primarias de muestreo que fueron seleccionadas en la muestra de la primera etapa.
Para definir los factores de expansión, se acude al argumento weights.
Por último, con el argumento nest = T se hace explícito que las UPM están efectivamente anidadas dentro de los estratos de muestreo.

Con la función summary es posible observar un resumen rápido del diseño de muestreo, en este caso conteninedo 119 estratos con 2 UPM por estrato, para un total de 238 UPM.

summary(diseno)

Además, como verificación adicional, es recomendable asegurarse que la suma de los factores de expansión en la muestra dé un resultado coherente. En este caso, esta suma es igual a 1.50266^{5}, que es el tamaño de la población de interés.

sum(weights(diseno))

## [1] 150266

Como se mostró en capítulos anteriores, el diseño de muestreo permite dividir la muestra en sub grupos. La primera subdvisión de interés es por zona (urbano y rural), la cual corresponde también a un estrato de muestreo. Es decir, tanto en la zona urbana, como en la zona rural hay independencia en el muestreo. Esto básicamente implica que la selección en estas zonas no está relacionada. De hecho, no existe ninguna intersección en las UPM que componen estos estratos puesto que, por definición, si una UPM está localizadas en la zona urbana, no puede estar en la zona rural, y viceversa.

sub_Urbano <- diseno %>% filter(Zone == "Urban")
sub_Rural <- diseno %>% filter(Zone == "Rural")

La segunda subdivisión de interés es por sexo. Sin embargo, esta subdivisión no conforma estratos independientes. En particular, nótese que, en la gran mayoría de casos, las UPM seleccionadas que contienen a hombres, serán las mismas que contengan a las mujeres.

sub_Mujer <- diseno %>% filter(Sex == "Female")
sub_Hombre <- diseno %>% filter(Sex == "Male")

Existen otro tipo de archivos propios de R como los .Rdata . Sin embargo existen algunas diferencias importantes entre ellos. Por ejemplo, mientras que los archivos .rds pueden contener cualquier número de objetos, los archivos .Rdata se limitan a un solo objeto.↩︎