Capítulo 1 Introducción
Las encuestas de hogares son uno de los instrumentos más importantes para hacer seguimiento a los indicadores de los Objetivos de Desarrollo Sostenible (ODS, por sus siglas) en el marco de la agenda 2030 (CEPAL 2023). Dada la importancia que tienen estos levantamientos en la política púbica de cada país, es necesario que los resultados que se obtengan de ellos sean lo más precisos y confiables posibles. En este sentido, las herramientas estadísticas utilizadas para procesar la información de las encuestas debe ser apropiada. Particularmente, el diseño de muestreo utilizado, la mayoría de veces complejo, debería ser incorporado en el análisis de los datos, dado que la forma en como se seleccionan las unidades observacionales no sigue un proceso simple y directo sobre el marco de muestreo, sino que es necesario recurrir a procesos indirectos en más de una etapa, con estratificación, aglomeración, probabilidades de selección no uniformes, etc. No incorporar el diseño de muestreo complejo en el procesamiento de las estadísticas derivadas de levantamientos complejos es un error común que el investigador debe evitar a toda costa.
El objetivo principal de este documento es presentar los conceptos necesarios para hacer un análisis apropiado de los datos recolecatados en las encuestas complejas, enfocado en las dinámicas particulares de las encuestas de hogares. Particularmente, se pretender entregar una guía práctica usando el software estadístico R
(R Core Team 2022) como interfaz principal. En ese sentido, todos los ejemplos, tablas y gráficos que se presentan en este libro se producen con R
, y los códigos computacionales usados se presentan en el docuemtno para que el lector pueda reproducirlos y replicarlos. R
es un software de código abierto, ampliaente utilizado por la comunidad estadística en todo el mundo que permite que cualquier investigador o instituto de estadística tenga acceso a él sin importar la plataforma computacional (Windows, macOS, Linux) del ordenador.
Los desarrollos estadísticos están en permanente evolución, surgiendo nuevas metodologías y nuevos enfoques en el análisis de encuestas. Estos desarrollos que parten de la academia, luego son adoptados por las empresas (privadas o estatales) y las entidades estatales, las cuales satisfacen sus necesidades con la inclusión de estos desarrollos en software estadísticos, proceso que puede llevar mucho tiempo. Algunos investigadores hacen la implementación de sus metodologías en paquetes estadísticos de código abierto como R
o Python
. Para efectos de este documento, todo el procesamiento de las encuestas se llevará en R
, puesto que tiene un mayor número de desarrollos en el procesamiento de las encuestas de hogares.
Como se mencionó anteriormente, dentro del software R
se disponen de múltiples librerías para el procesamiento de encuestas complejas. Estas varían dependiendo del enfoque de programación desarrollado por el autor o la necesidad que se busque suplir. Como es el objetivo de este documento y como se ha venido trabajando en los capítulos anteriores nos centraremos en las librerías survey
y srvyr
. A medida que se requiera, se incluirán más librerías de acuerdo a las necesidades que se presenten.
El lector encontrará en este texto la siguiente estructura. En el capítulo 2 se describen los conceptos básicos de una encuesta compleja fundamentales para la correcta definición del diseño muestral en el entorno de las encuestas de hogares. En el capítulo 3 y 4 se definen los conceptos de variables aleatoria continua y discretas respectivamente en el contexto del muestreo probabilístico y, en el capítulo 5 se muestra como ajustar modelos de regresión lineal utilizando variables discretas y continuas empleando las herramientas del muestreo probabilístico. En el capítulo 6 se presentan las herramientas para ajustar modelos de regresión logística los cuales son fundamentales en el análisis de encuestas de hogares.
Ahora bien, en los análisis estadísticos no solo son requeridos los modelos de regresión lineales, también, por la misma naturaleza de las variables capturadas en una encuesta de hogares, es necesario el ajuste de modelos lineales generalizados y multiniveles, estos conceptos son trabajados en el capítulo 7 y 8 respectivamente.
Con las complejidades que trajo la pandemia por COVID-19, es muy evidente que la falta de respuesta en las encuestas de hogares ha aumentado de manera importante en los últimos años por lo que es necesario recurrir a técnicas de imputación para paliar el sesgo que trae la información no capturada en el trabajo de campo. Esta temática es abordada en el capítulo 9. Por último, la presentación gráfica de los resultados en una encuesta de hogares se presenta en el capítulo 10.