8.8 Algunas relaciones de interés para proporciones

Cuando se trata de estadísticas de la fuerza laboral, una variable clave para el diseño de una encuesta de hogares que mida la dinámica del mercado de trabajo es el estado de los individuos en la fuerza laboral. Para los gobiernos, es de interés proporcionar un conjunto de indicadores destinados a medir y rastrear la ocupación de los ciudadanos del país (o región). Por ejemplo, se puede obtener estimaciones de la tasa de desempleo actual (medida mensual o trimestralmente); asimismo, también son de interés la variación neta entre dos períodos y los flujos brutos entre categorías de empleo entre períodos.

Es posible mencionar tres tipos de planificación en las encuestas de hogares desde las cuales es posible abordar adecuadamente las características particulares de los estudios de fuerza laboral. La primera es a través de las encuestas repetidas,donde se realizan mediciones similares en diferentes puntos del tiempo a diferentes personas cada vez. La segunda son las encuestas de panel, donde se realizan mediciones en diferentes puntos en el tiempo a las mismas personas cada vez. La tercera son las encuestas rotativas, donde se incluyen elementos y se siguen en la muestra durante un período específico, y a medida que salen de la muestra, se agregan nuevos elementos.

Una regla general común para calcular el tamaño de la muestra afirma que como la variable de diseño es dicotómica (dependiendo del estado de empleo), la varianza de ese tipo de variables encuentra su máximo cuando la probabilidad de éxito es 0.5. Sin embargo, si las políticas públicas en un país se centran en lograr que la tasa de desempleo sea baja a través de algunas intervenciones gubernamentales que afectan (positivamente) a la fuerza laboral, y si esas estrategias son efectivas, entonces la probabilidad de éxito de la variable de diseño cambia y puede afectar el tamaño de la muestra de las encuestas de hogares.

En esta sección documento, centramos nuestra atención en el tamaño de la muestra inducido por el control del margen de error; en donde a medida que la proporción disminuye, el tamaño de la muestra aumenta sustancialmente. Sin embargo, al controlar el margen de error, debido a que la función de varianza detrás de este enfoque es simétrica alrededor de 0.5, se puede encontrar que el mismo tamaño de muestra necesario para cumplir con los requisitos de calidad para cualquier proporción \((P_d)\) es el mismo que el requerido para satisfacer los requisitos de calidad para su complemento aditivo \((1 - P_d)\).

A continuación se proporciona varios ejemplos que tipifican algunos escenarios que se pueden encontrar en la práctica. Los cálculos se pueden reproducir empleando el software estadístico R (R Core Team 2020a), mediante el uso de la biblioteca samplesize4surveys (Rojas 2020), utilizando específicamente las funciones ss4p y ss4dp

8.8.1 Estimación de proporciones

  1. Primer escenario: si la tasa de desempleo es baja, digamos \({P}=0.05\) y el margen de error se fija en \(ME = 0.0025\), entonces el intervalo de confianza esperado sería \(IC=0.05\pm0.0025=(0.0475,0.0525)\). En este caso el tamaño de muestra requerido es de alrededor de 55169.

  2. Segundo escenario: si la tasa de desempleo es alta, digamos \({P}=0.2\), y el margen de error de error se fija en \(ME = 0.01\), entonces el intervalo de confianza sería \(IC=0.2\pm0.01=(0.19,0.21)\), y el tamaño de muestra requerido es 12144.

Nótese que ambos escenarios dan lugar al mismo margen de error relativo (\(MER\)), definido como \(MER=\frac{ME}{{P}}\). En efecto, para el primero, tenemos \(MER=(0.0025/0.05)\times 100\%=5\%\), y para el segundo, tenemos \(MER=(0.01/0.2)\times 100\%=5\%\). Por lo tanto, incluso para el mismo margen de error relativo, el tamaño de la muestra debe ser mayor si el fenómeno que nos interesa tiene una baja incidencia en la población finita. De hecho, es posible definir una función de información para saber si el tamaño de su muestra es suficiente para cumplir con los requisitos de calidad para una proporción determinada. Esto es útil porque no se sabe exactamente qué valor tomará la proporción. Además, si la encuesta de hogares intenta estimar otras proporciones (como en una encuesta multipropósito), se encontrará rápidamente si su tamaño de muestra actual es adecuado para todo el estudio.

  1. Tercer escenario: si el tamaño de la muestra se define como \(n = 10000\), y la proporción es \(P=0.2\), entonces el coeficiente de variación será de 2,8% y el margen de error será del 1.1%. Es posible notar que todas las proporciones estimadas tendrán un margen de error inferior al 1.4%.

  2. Cuarto escenario: si el tamaño de la muestra se define como \(n = 40000\), y la proporción se centra en \(P=0.05\), entonces el coeficiente de variación será del 3% y el margen de error será de 0.2%. Es posible notar que todas las proporciones estimadas tendrán un margen de error inferior al 0.7%.

Teniendo en cuenta que, para una proporción \(P\) dada, el tamaño de muestra requerido para lograr un margen de error particular es el mismo que para su complemento aditivo \(1-P\), como es de esperar, si un tamaño de muestra alcanza los requisitos para una proporción establecida, también alcanzará los requisitos de calidad para cualquier proporción superior.

Sin embargo, para una proporción \(P\), el tamaño muestral requerido para lograr un coeficiente de variación particular no es el mismo que para su complemento aditivo \(1-P\). Luego, para una proporción baja, se puede encontrar que con un tamaño de muestra dado el coeficiente de variación será mayor que para su complemento aditivo. Sobre la base de los resultados encontrados en esta sección, y bajo un \(MER\) fijo (5% en todos los casos), encontramos que al intentar estimar proporciones (como la tasa de desempleo):

  • Si la proporción es baja, anticipamos un gran tamaño de muestra.
  • Si la proporción es alta, esperamos un tamaño de muestra pequeño.

8.8.2 Estimación de cambios netos

Ahora dirigimos nuestra atención a los cambios netos en la tasa de desempleo durante dos períodos, \(\Delta= |P_{1}-P_{2}|\). Este tipo de parámetro se puede estimar utilizando una encuesta repetida, rotativa o de panel. Sin embargo, como se evidenció en las anteriores secciones, hay una reducción en el tamaño de la muestra si se intentan estimar los cambios netos desde una encuesta rotativa o de panel. Como no estamos estimando una proporción, sino un cambio neto,tenemos que considerar qué valores son adecuados para el establecer el margen de error absoluto.

  1. Quinto escenario: si no esperamos cambios significativos entre ambos períodos, y las tasas de desempleo son altas, por ejemplo \(\Delta \approx |0.22-0.20|=0.02\), y el margen de error se fija en \(ME = 0.001\), entonces el intervalo de confianza sería \(IC=0.02 \pm 0.001=(0.019,0.021)\), y el tamaño de muestra requerido estaría alrededor de 96224.

  2. Sexto escenario: si no esperamos cambios significativos entre períodos, y las tasas de desempleo son bajas, por ejemplo \(\Delta \approx |0.05-0.03| =0.02\), y el margen de error se fija en \(ME = 0.001\), entonces el intervalo de confianza sería \(IC=0.02\pm0.001=(0.019,0.021)\), y el tamaño de muestra requerido debería ser de 59536.

  3. Séptimo escenario: si esperamos cambios significativos entre períodos, y las tasas de desempleo difierenpor ejemplo \(\Delta \approx|0.05-0.20|=0.15\) y el margen de error se fija en \(ME = 0.0075\), entonces el intervalo de confianza sería \(IC=0.15\pm0.0075=(0.1425,0.1575)\), y el tamaño de muestra requerido estaría alrededor de 22083.

Nótese qeu los escenarios quinto, sexto y séptimo dan como resultado el mismo \(MER\), definido como \(MER=\frac{ME}{\mathrm{\Delta}}\). En efecto, para el séptimo escenario tenemos \(MER=\)(0.0075/0.15)%=5%, y para el quinto y sexto, tenemos \(MER=\)(0.001/0.02)%=5%. Por lo tanto, incluso para el mismo valor del cambio neto, el tamaño de la muestra no será el mismo y variará dependiendo de la configuración de las proporciones. Por supuesto, hay que esperar cambios más drásticos si varía la porción del traslape y la correlación entre períodos.

Además, se debe tener en cuenta que es posible encontrar diferentes configuraciones de proporciones en ambos periodos que induzcan el mismo valor en el cambio neto. Contrariamente a lo que se esperaría, si un tamaño de muestra alcanza los requisitos de calidad para un parámetro \(\Delta\), no necesariamente cumplirá con los requisitos de calidad para el mismo valor nominal del cambio neto bajo una configuración diferente en las proporciones involucradas.

Para cumplir con los requisitos de calidad, bajo el mismo \(MER\), se necesitará un mayor tamaño de muestra si no se esperan cambios significativos en las tasas de desempleo entre los períodos involucrados. Si el cambio neto sigue siendo el mismo para ambos períodos, para cumplir con los requisitos de calidad, bajo el mismo \(MER\), se necesitará un mayor tamaño de muestra si el fenómeno del desempleo es alto. Ahora, al intentar estimar los cambios netos de proporciones (como el cambio anual o mensual en las tasas de desempleo), encontramos que:

  • Si las tasas son significativamente diferentes, esperamos un tamaño de muestra pequeño.
  • Si las tasas son similares y las proporciones son bajas, requerimos un tamaño de muestra moderado.
  • Si las tasas son similares, y las proporciones son grandes, esperamos un gran tamaño de muestra.

Referencias

R Core Team. 2020a. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
Rojas, Hugo Andres Gutierrez. 2020. samplesize4surveys: Sample Size Calculations for Complex Surveys.