3.4 Parámetros e indicadores de interés

Las encuestas son usadas para producir estimaciones de parámetros que describen la situación de una población, respondiendo a los objetivos de la investigación. En general, es posible clasificar en dos grandes grupos los indicadores o parámetros de interés en una encuesta:

Indicadores descriptivos, incluyendo:
- Medias, como el promedio de gasto mensual, promedio de ingreso per cápita o el promedio de años en educación, etc.
- Proporciones: porcentaje de personas por debajo de la línea de indigencia, porcentaje de niños con desnutrición, porcentaje de hogares con pisos de tierra, etc.
- Totales: total de ingresos recibidos por concepto de remesas, total de gasto en alimentación, etc.
- Tamaños: refereido como la cardinalidad (número de unidades) de un subgrupo poblacional, tamaño de la fuerza de trabajo, cantidad de personas inactivas, cantidad de mujeres victimas de acoso laboral, etc.
Indicadores analíticos, incluyendo:
- Correlación: relación entre la cantidad de libros leídos y los años de escolaridad.
- Regresión: razón de incremento entre ingreso y años de experiencia

Por lo general, el conocimiento de la población a cualquier nivel está reflejado en forma de totales, o de funciones de totales. Es por esta razón que este documento se enfoca y profundiza en las características inferenciales de los totales, puesto que la generalización a otros parámetros es inmediata. De esta manera, un total poblacional se define como la suma de las observaciones de una variable de interés, notada como \(y\), en la población y se calcula mediante la siguiente ecuación:

\[t_y = \sum_{k \in U} y_k\]

En donde \(U\) hace referencia al universo de estudio, mientras que \(y_k\) hace referencia a la variable de interés en el \(k\)-ésimo individuo. Por ejemplo, en una investigación social se puede realizar una encuesta para estimar el total de gasto de los hogares de un país en productos específicos de comida y bebidas no alcohólicas. En este ejemplo, la población \(U\) corresponde a los hogares, mientras que la variable \(y\) corresponde al gasto en comida y bebidas no alcohólicas, que es observada en el \(k\)-ésimo hogar, y notada como \(y_k\).

Un caso particular de este parámetro es el tamaño poblacional que mide la cantidad de unidades que conforman una población y se denota como \(N\). Por lo general, este parámetro es regularmente conocido, o al menos se tiene una aproximación de esta cantidad, gracias a la realización de los censos de población y vivienda. En una encuesta de hogares, este parámetro podría denotar el número de hogares en el país (el cual no es conocido literalmente, aunque sí se conocen aproximaciones (o proyecciones) a esta cantidad con base en los resultados de los censos de población y vivienda) o el número de habitantes del país (el cual tampoco es conocido exactamente, aunque sí se cuente con proyecciones poblacionales). Este parámetro también toma la forma de un total poblacional:

\[N = \sum_{k \in U}1\]

Tal vez el parámetro más relevante en la investigación social lo constituye el promedio poblacional que describe la cantidad que debería ser asignada a cada individuo de la población si hubiese una asignación equitativa de la variable de interés. De esta forma, el promedio se define como la suma de las observaciones de la variable en la población dividida por el tamaño poblacional \(N\) y se calcula mediante la siguiente expresión:

\[\bar{y}_U = \frac{t_y}{N}\]

Por ejemplo, en una encuesta de hogares es posible estimar el ingreso medio por hogar de la población, definido como el total de los ingresos de todos los hogares del país dividido entre el número de hogares del país. En este caso la variable de interés \(y\) es el ingreso del hogar. De la misma forma, también se podría estimar el gasto promedio de los hogares en educación; en donde la variable de interés \(y\) es el gasto de todos lo miembros del hogar en este concepto (sin importar la edad ni el nivel propedéutico) y \(N\) sería el número de hogares del país.

Un parámetro que es de particular interés es el tamaño absoluto de un dominio poblacional que mide la cantidad de unidades que conforman una subpoblación de interés \(U_d\) y que se denota como \(N_d\). Por ejemplo, en las encuestas de fuerza laboral, es muy importante estimar con una alta precisión el número de personas que están desocupadas en un periodo de tiempo, y comparar su evolución a través del tiempo. En este caso, la subpoblación de interés, o dominio poblacional, estará definida por los desocupados. Nótese que este parámetro está definido como un total sobre una variable dicotómica \(z_{d_k}\) que toma el valor de 1, si el \(k\)-ésimo individuo tiene el atributo de interés y de 0, en otro caso. Este parámetro se calcula de la siguiente manera:

\[N_d = \sum_{k \in U}z_{d_k} = \sum_{k \in U_d}1\]

De la misma forma, la incidencia relativa de los fenómenos sociales sobre los hogares o personas puede ser medida a través de la proporción de un dominio poblacional. Por ejemplo, la proporción de personas en condición de pobreza o de pobreza extrema son proporciones sobre toda la población, en donde la variable de interés \(z_{d_k}\) indica si el ingreso per cápita de un individuo es menor que la línea de pobreza; CEPAL (2018a) presenta los pormenores metodológicos del cálculo de la pobreza en los países de América Latina y el Caribe. Este parámetro se calcula mediante la siguiente ecuación:

\[P_d=\frac{N_d}{N}\]

En algunos casos es de interés conocer el total de una variable en una subpoblación. Por ejemplo, el total del ingreso en las mujeres, o el total de gasto en el área rural. En estas situaciones el parametro se conoce como total del dominio y se puede calcular mediante la siguiente expresión:

\[t_{y_d} = \sum_{k \in U}y_{k} \ z_{d_k} = \sum_{k \in U_d}y_{k}\]

Así mismo, puede ser de interés calcular medidas relativas en el dominio, como por ejemplo la media del dominio. De esta forma, es posible calcular la media de los ingresos entre hombres y mujeres, o calcular la media de los ingresos en los ocupados, o la media del gasto en comida para la población indígena. Este parámetro puede ser calculado con la siguiente expresión:

\[\bar y_{U_d} = \frac{t_{y_d}}{N_d}\]

Finalmente, la razón poblacional se calcula como el cociente entre dos totales, el primer total \(t_y\) asociado a una variable de interés \(y\), el segundo total \(t_x\) asociado a una variable de interés \(x\). Por ejemplo, en la medición del mercado de trabajo, la tasa de desocupación es una razón entre el total de personas desocupadas y el total de personas activas. Nótese que para clasificar a una persona como desocupada, ocupada, activa o inactiva, es necesario realizar una indagación en la encuesta a cada uno de los miembros del hogar; por lo tanto ambas cantidades, numerador y denominador, corresponden a cantidades desconocidas de antemano. Es más, la condición de ocupación de las personas puede variar entre los periodos de observación. Este parámetro se calcula mediante la siguiente expresión:

\[R_U=\frac{t_y}{t_x}\]

En efecto, los indicadores de pobreza pueden expresarse como razones poblacionales; es el caso de la incidencia, brecha y severidad de la pobreza, parámetros que son expresados en términos de un umbral sobre el poder adquisitivo (Foster, Greer, y Thorbecke 1984). Este tipo de indicadores de pobreza se pueden expresar mediante la siguiente relación

\[ F_{\alpha} = \frac{1}{N} \sum_U \left(\frac{u-y_k}{u}\right)^{\alpha}I_{(y_k < u)} \]

En donde \(y_k\) determina el ingreso del individuo \(k\), \(u\) se refiere al umbral que establece la línea de pobreza y \(\alpha \geq 0\). Por ejemplo, en el caso en el que \(\alpha = 0\), este indicador calcula la tasa de pobreza, que es la incidencia de este fenómeno en la población; si \(\alpha = 1\), este indicador calcula la brecha de la pobreza, que es la cantidad de dinero relativa que se necesitaría en promedio para que un país no tuviera personas en situación de pobreza. Por último si \(\alpha = 2\), este indicador medirá la severidad de la pobreza, como una combinación entre la incidencia de la pobreza de los hogares, la brecha absoluta de ingreso de los hogares en situación de pobreza y la desigualdad de ingresos entre los hogares en situación de pobreza.

En este punto vale la pena resaltar que, en la definición de los parámetros básicos que se quieren estimar en una encuesta, el papel de los totales poblacionales es absolutamente relevante. De igual manera, existen otros parámetros no lineales que pueden ser considerados complejos, pero que al igual que los mencionados anteriormente resultan ser también una función de totales poblacionales. Por ejemplo, considere el cambio neto de los totales de la variable de interés \(y\) en dos periodos de tiempo (\(t_1\) y \(t_2\)) dado por la siguiente expresión:

\[ \Delta_y = t_{y^{(2)}} - t_{y^{(1)}} \]

En donde \(t_{y^{(2)}}\) es el total de interés en el tiempo \(t = 2\), y \(t_{y^{(1)}}\) lo es en el tiempo \(t=1\). Este tipo de parámetros son muy comunes en las encuestas que se realizan para conocer la estructura y los cambios del mercado de trabajo. Por ejemplo, la siguiente tabla muestra la composición del mercado de trabajo en una población observada en dos periodos de interés. De esta forma, los totales marginales de la tabla corresponden a los cambios netos que permiten una comparación simple con el periodo anterior. Específicamente, es posible observar que hay 313 mil empleados menos, 80 mil desempleados menos y 393 mil inactivos más en el segundo periodo, en comparación al primero.

*Composición del mercado de trabajo en dos periodos de tiempo (cifras en miles de personas). Las columnas corresponden al segundo periodo y las filas al primero.*
Condición	Ocupado	Desocupado	Inactivo	Total
Ocupado	9222	128	662	10012
Desocupado	221	322	151	694
Inactivo	256	164	5941	6361
Total	9699	614	6754	17067

Una comparación más profunda está dada en términos de los cambios brutos, que corresponden a las entradas de la tabla cruzada. De esta manera, los cambios en la fuerza de trabajo de un periodo a otro, se explican porque el \(92.1 \%=(9222/10012) \times 100 \%\) de los empleados conservó su empleo; el \(31.8\% = (221 / 694 )\times 100 \%\) de los desempleados y el \(4.0 \% = (256/6361)\times 100 \%\) de los inactivos consiguió un nuevo empleo; el \(6.6\% = (662/10012)\times 100 \%\) de los empleados es ahora inactivo en la fuerza laboral y el \(1.3\% = (128/10012)\times 100 \%\) de los empleados perdió su empleo. Así mismo, el \(46.4\% = (322/694)\times 100 \%\) de los desempleados conservó su clasificación; el \(2.6\% = (256 / 6361)\times 100 \%\) de los inactivos entró a la fuerza laboral como desempleado y el \(21.8\% = (151 / 694)\times 100 \%\) de los desempleados es ahora inactivo.

3.4.1 Algunos ejemplos de indicadores de interés y su relación con los tipos de encuestas

En esta sección se relacionan algunos de los parámetros anteriormente mencionados con los tipos más comunes de encuestas. Estos ejemplos nos presentan algunas indicaciones del tipo de encuestas que se encuentran en América Latina y examinan el raciocinio detrás de estos levantamientos. Tomando en consideración las características generales de las encuesta de hogares, Duncan y Kalton (1987) mencionan las siguientes situaciones, ejemplificadas a continuación.

Estimación de parámetros poblacionales en un punto del tiempo. Por ejemplo, suponga que se quiere estimar el ingreso per cápita promedio por área (rural - urbano) en las regiones de un país. En este tipo de estudios, las encuestas aptas serían las transversales, las repetidas, las de panel rotativo y las de panel dividido. Nótese que las encuestas de panel puro no son aptas para estimar este parámetro puesto que la muestra no es representativa de la población en el momento actual, sino que, por el contrario, es representativa de la población en el momento en la cual se extrajo la muestra.
Estimación de cambios netos. Si se quisiera estimar la diferencia en el número de ocupados de la fuerza de trabajo entre el segundo trimestre de 2021 y el primer trimestre de 2021 en un país, entonces las encuestas aptas serían las repetidas, las de panel rotativo y las de panel dividido. Una encuesta transversal no sería apta para lograr esta estimación, puesto que su frecuencia de realización no es trimestral. De la misma forma que en el parámetro anterior, las encuestas de panel puro no son aptas para captar este parámetro puesto que la muestra no es representativa de la población en el momento actual.
Estimación de cambios brutos y componentes individuales. Para estimar el porcentaje de personas ocupadas en el segundo trimestre de 2021 que estuvieron desocupadas en el primer trimestre de 2021 en un país es necesario que la encuesta tenga algún patrón de selección de los mismos individuos en los dos periodos. De esta forma, las únicas encuestas aptas para estimar este tipo de cambios brutos son las de panel, panel rotativo y panel dividido. Las encuestas transversales o repetidas no podrían arrojar este tipo de estimativas puesto que su diseño no considera a los mismos individuos en la muestra en dos periodos de tiempo.
Estimación de la incidencia de eventos en un periodo de tiempo. Suponga que se quiere estimar la proporción de mujeres que fueron víctimas de un evento de violencia en los últimos seis meses en un país. En este caso todas las encuestas resultarían aptas mediante ligeras modificaciones en el diseño. Por ejemplo, la encuesta transversal debería preguntar de forma retrospectiva; las encuestas repetidas podrían ser agregadas en los últimos seis meses, las encuestas de tipo panel rotativo y divididas deberían preguntar en cada medición de los últimos seis meses por este evento.
Estimación de la incidencia de eventos raros en el tiempo. Por ejemplo, si se quisiera estimar la proporción de personas con una enfermedad rara, es posible que las encuestas transversales y de tipo panel no sean las más apropiadas En el primer caso, dado que el evento es raro por definición, los requerimientos de tamaño de muestra en una encuesta transversal sobrepasarían el presupuesto y los costos de una encuesta regular; en el segundo caso, además de las consideraciones anteriormente planteadas del tamaño de muestra, por la misma definición de evento raro, tampoco sería plausible que en el panel se presentaran estos eventos en los individuos a través del tiempo. Por otro lado, al agregar las encuestas repetidas, las de panel rotativas y la parte nueva del panel dividido, podría ser posible llegar al tamaño de muestra adecuado para poder captar esta incidencia de forma precisa y eficiente.

Estos últimos ejemplos muestran la importancia de contar con procedimientos adecuados de acumulación de datos y encuestas a lo largo de un periodo de interés, por ejemplo de forma anual o semestral. La acumulación de datos genera una buena base inferencial para poder estimar todo tipo de parámetros en una ventana más amplia del tiempo. Es posible acumular datos eficientemente por medio de la agregación de encuestas repetidas. De esta forma se definiría una agregación de datos vertical que añade filas, puesto que en cada levantamiento aparecen nuevos individuos, dado que el diseño de las encuestas repetidas selecciona diferentes individuos en cada punto del tiempo. Este es el caso de la Gran Encuesta Integrada de Hogares de Colombia que está diseñada para tener representatividad a niveles de desagregación mayores, juntando los individuos observados en los doce levantamientos continuos en un año.

Por otro lado, las encuestas de panel permiten un tipo diferente de agregación, no basado en individuos, sino en variables en el tiempo. A diferencia de las encuestas repetidas, las encuestas de panel, panel rotativo o panel dividido permiten observar a los individuos en diferentes periodos de tiempo y la agregación puede hacerse de forma horizontal, manteniendo a los individuos en las filas y añadiendo columnas cada vez que se observe una nueva medición en un periodo de tiempo diferente.

Referencias

———. 2018a. Medición de la pobreza por ingresos - Actualización metodológica y resultados. Metodologías de la CEPAL. http://repositorio.cepal.org/bitstream/handle/11362/44314/1/S1800852_es.pdf.

Duncan, G. J., y G. Kalton. 1987. «Issues of Design and Analysis of Surveys across Time». International Statistical Review / Revue Internationale de Statistique 55 (1): 97. https://doi.org/10.2307/1403273.

Foster, James, Joel Greer, y Erik Thorbecke. 1984. «A Class of Decomposable Poverty Measures». Econometrica 52 (3): 761-66. https://doi.org/10.2307/1913475.