19.1 Medidas de calidad

Los criterios que aparecen en esta sección pueden ser tenidos en cuenta para determinar si una estadística debe ser considerada como precisa y confiable.

19.1.1 Intervalos de confianza

En general, la precisión de una estadística se debe estudiar a la luz del intervalo de confianza generado por la medida de probabilidad asociada al diseño de muestreo de la encuesta. Por ejemplo, si el parámetro de interés sobre el cual se busca realizar la inferencia es \(\theta\), y se ha definido una subpoblación de interés, entonces un intervalo del 95% de confianza sobre esa subpoblación está dado por la siguiente expresión (Heeringa, West, y Berglund 2010):

\[ (\hat\theta - t_{0,975, gl} * se(\hat\theta), \ \ \hat\theta + t_{0,975, gl} * se(\hat\theta)) \]

En donde \(\hat\theta\) es un estimador por muestreo para el parámetro de interés \(\theta\), \(t_{0,975, gl}\) es el percentil 0.975 de una distribución t-student con \(gl\) grados de libertad, que están dados por la resta entre el número de UPM seleccionadas menos el número de estratos de muestreo considerados y \(se(\hat\theta)\) es el error estándar de la estimación, definido por la raíz cuadrada de la varianza estimada del estimador; es decir: \[ se(\hat\theta) = \sqrt{\widehat{Var}(\hat\theta)} \]

En el caso particular de las proporciones, los intervalos de confianza deben estar contenidos dentro del intervalo \((0, 1)\). Sin embargo, en algunas ocasiones puede ocurrir que el error estándar de una estimación cercana al 0 o al 1 sea demasiado grande y que el límite inferior, o superior del intervalo de confianza sea menor a cero, o mayor a uno, respectivamente. En este caso, es necesario estimar el intervalo de confianza con una variante que permita considerar estas restricciones. Una solución a este problema es considerar una transformación al estimador. De esta manera, si \(\hat{P}\) es una estimación de la proporción, se define la transformación Logit de la proporción.

\[ \hat{L} = \log \left(\dfrac{\hat{P}}{1-\hat{P}} \right) = logit(\hat{P}) \]

Note que la aproximación de Taylor de primer orden para \(\hat{L}\) es:

\[ \hat{L} \cong L(P) + \frac{\partial \hat{L}}{\partial \hat{P}}\biggr\rvert_{\hat{P}=P}(\hat{P}-P) = L(P) + \left( \dfrac{1}{P(1-P)}\right)(\hat{P}-P) \]

Luego la varianza de \(\hat{L}\) se puede escribir como: \[ Var(\hat{L}) = AVar(\hat{L}) = \dfrac{Var(\hat{P})}{P^2(1-P)^2} \]

De esta forma, es posible definir un intervalo de \((1-\alpha)100\%\) de confianza para \(L\) como \[ \left(\hat{L} - t_{0,975, gl}\sqrt{Var(\hat{L})}, \ \ \hat{L} + t_{0,975, gl}\sqrt{Var(\hat{L})} \right) = (\hat{L}_1, \ \ \hat{L}_2) \]

Finalmente, se tiene que

\[ \hat{P} = logit^{-1}(\hat L) = \dfrac{\exp (\hat{L})}{1+\exp (\hat{L})} \]

Por tanto, un intervalo de confianza para \(\hat{P}\) está por \[ \left(logit(\hat{L}_1), \ \ logit(\hat{L}_2)\right) = \left( \dfrac{\exp (\hat{L}_1)}{1+\exp (\hat{L}_1)}, \ \ \dfrac{\exp (\hat{L}_2)}{1+\exp (\hat{L}_2)} \right) \subseteq (0, 1) \]

Nótese que en los casos en los que el intervalo de confianza clásico se sale de los límites naturales de la proporción, es recomendable utilizar este último enfoque.

19.1.2 Coeficiente de variación

Esta medida configura un acercamiento al error de muestreo que permite verificar si la inferencia es válida, su definición es como sigue:

\[ CV(\hat\theta) = \frac{se(\hat\theta)}{\hat\theta} = \frac{\sqrt{\widehat{Var}(\hat\theta)}}{\hat\theta} \]

Esta medida de precisión de las estimaciones se ha consolidado como un estándar de calidad que ha permeado la práctica de los INE en la publicación de estadísticas oficiales. Su uso es transversal puesto que, por su definición, tiene una naturaleza relativa, liberando al usuario de la unidad de medida inducida por la variable de interés. Además, es posible reformular los intervalos de confianza en términos del coeficiente de variación, de la siguiente manera:

\[ \hat\theta \pm t_{0,975, gl} * se(\hat\theta) = \hat\theta \left(1 \pm t_{0,975, gl} * CV(\hat\theta)\right) \]

Como lo afirman Singh, Westlake, y Feder (2004), esta es una medida de fácil interpretación, proporcional a la amplitud del intervalo de confianza, que provee una medida estandarizada y relativa de la precisión alrededor de la estimación puntual, que permite comparar dos estimaciones del mismo indicador en diferentes sub-poblaciones, y además que es utilizada en el diseño y a re-diseño de las encuestas, entre otras cualidades. Por ejemplo, desde el punto de vista teórico, C.-E. Särndal, Swensson, y Wretman (2003) expresan que un estadístico puede expresar su opinión de “que un valor del coeficiente de variación del 2% es bueno, considerando las restricciones de la encuesta, mientras que un valor del coeficiente de variación de 9% puede ser considerado inaceptable.” De esta forma, muchos institutos nacionales de estadística alrededor del mundo han considerado que las precisiones de las estadísticas resultantes de una encuesta estén supeditadas al comportamiento de su coeficiente de variación. En el contexto de la calidad de las estimaciones provenientes de encuestas de hogares, mucho se ha discutido acerca del uso del coeficiente de variación en la validación de la confiabilidad y precisión de las cifras que provienen de estudios por muestreo.

Nótese que, cuando se están estimando proporciones, esta medida tiene algunas consideraciones importantes. En primer lugar, fijar un umbral para el coeficiente de variación tiene una interpretación directa sobre la amplitud relativa del intervalo de confianza. Por ejemplo, si la ONE decide fijar como umbral para el coeficiente de variación un 30%, esto implica que la amplitud relativa (AR) del intervalo de confianza se fija de forma automática alrededor de 118%, puesto que:

\[ CV(\hat\theta) = 30\% \Rightarrow AR = \frac{2*t_{0,975, gl} * se(\hat\theta)}{\hat\theta} \approx 118\% \]

Por otro lado, como en todo fenómeno dicotómico resumido en un proporción, la varianza y el error estándar de la proporción obtiene su valor máximo en \(P=0,5\). Por lo tanto, en este valor es necesario aumentar el tamaño de muestra para asegurar la precisión definida. A partir de \(P=0,5\), a derecha e izquierda, los fenómenos son simétricos. Por ejemplo, bajo este paradigma, la precisión de una proporción \(P=0,9\), es la misma que la de una proporción \(P=0,1\); de la misma manera, la precisión de una proporción \(P=0,7\), es la misma que la de una proporción \(P=0,3\). Sin embargo, el coeficiente de variación no es una medida simétrica alrededor de \(P=0,5\), como sí lo es la varianza y el error estándar y, por su definición, cuando la proporción es pequeña, el coeficiente de variación tiende a ser muy grande, indicando erróneamente que la precisión es baja.

19.1.3 Coeficiente de variación logarítmico

El coeficiente de variación es una medida que define la precisión de un indicador, pero para el caso de las proporciones no constituye una medida simétrica, como sí lo es el error estándar o la varianza. Por ejemplo, suponga que se está estimando una proporción \(P\), si la estimación del parámetro de interés es muy cercana a cero, sin importar que tan pequeña sea su varianza, el coeficiente de variación será muy grande y no representará la calidad de la estrategia de muestreo. Sin embargo, el coeficiente de variación del complemento de la proporción \((1-P)\) será muy pequeño y confiable. Esto se traduce en una paradoja, puesto que el mismo fenómeno está siendo medido, pero los coeficiente de variación son contradictorios. Debido a lo anterior, las estimaciones que tienen una magnitud pequeña (muy cercana a cero) son automáticamente castigadas por este indicador, incluso si la variabilidad de la cifra es pequeña.

Algunos autores han propuesto la posibilidad de realizar una transformación logarítmica sobre la proporción y utilizar su coeficiente de variación como una medida robusta del error de muestreo en las proporciones cercanas a cero y a uno, que además sea simétrica al rededor de \(P=0,5\), que es donde se maximiza la variabilidad de la proporción (Barnett-Walker et al. 2003). Por ende, si \(P\leq 0,5\), se define \(\hat L = -\log( \hat P)\). En este caso, la aproximación de Taylor de primer orden es:

\[ \hat{L} \cong L + \frac{\partial \hat{L}}{\partial \hat{P}}\biggr\rvert_{\hat{P}=P} (\hat{P}-P) = L + \left(\frac{-1}{P}\right)(\hat{P}-P) \]

Luego, la varianza de \(\hat{L}\) será \(Var(\hat{L})\cong AV(\hat{L}) = \dfrac{Var(\hat{P})}{P^2}\), y por consiguiente el error estándar de la transformación equivaldrá al coeficiente de variación de la proporción, dado por:

\[ SE(\hat{L}) = \sqrt{AVar(\hat{L})} = \dfrac{\sqrt{Var(\hat{P})}}{\hat{P}} = CV(\hat{P}) \]

De esta manera, podemos definir una medida de suavizamiento como el coeficiente de variación asociado a la transformación:

\[ CV(\hat{L}) = \dfrac{SE(\hat{L})}{\hat{L}} = \dfrac{CV(\hat{P})}{\hat{L}} \]

De manera similar, para mantener la simetría, cuando \(P>0,5\) se realiza un ajuste definiendo \(\hat{L} = -\log(1-\hat{P})\). Por lo tanto, para proporciones centrales, los coeficientes de variación de \(\hat{P}\) y \(\hat{L}\) serán comparables, puesto que \(\hat{L}\) toma valores cercanos a uno cuando \(P \in (0,2\ \ ,\ \ 0,8)\), y en este caso el \(CV(\hat{L})\) será similar a \(CV(\hat{P})\).

A continuación se presenta un ejemplo sencillo. Considere una proporción estimada \(\hat{P} = 0.1\%\), con un error estándar \(SE(\hat{P}) = 0.2\%\); por ende, el intervalo de confianza clásico está dado por \((-0.10\%, 0.30\%)\), junto con un coeficiente de variación \(CV(\hat{P}) = 99.70\%\), razón por la cual la cifra no sería publicable en primera instancia. Sin embargo, a partir de la amplitud del intervalo de confianza es fácil observar que esta estimación es buena, informativa y precisa. Por lo tanto, utilizando la transformación logit, el intervalo de confianza de la transformación estaría dado por \((0.01\%, 0.71\%)\) y el \(CV(\hat{L})= \dfrac{CV(\hat{P})}{\hat{L}}=\dfrac{99,7}{-\log(0,001)}\cong 14.5\%\), y por lo tanto se concluye que la cifra sí podría publicarse.

Aún más, este enfoque representa una excelente aproximación al enfoque clásico cuando las proporciones estimadas no son pequeñas. Por ejemplo, considere una proporción estimada del \(\hat{P} = 30\%\), con un con un \(CV(\hat{P}) = 4.83\%\) y un intervalo de confianza clásico dao por \((27.16\%, 32.84\%)\). Utilizando la transformación logit, el intervalo de confianza estaría dado por \((27.24\%, 32.91\%)\) y el coeficiente de variación logit sería de \(CV(\hat{L}) = 4.01\%\).

Relación entre el tamaño de muestra y la precisión de un indicador utilizando la transformación Logit.

Figura 19.1: Relación entre el tamaño de muestra y la precisión de un indicador utilizando la transformación Logit.

La figura 19.1 muestra que, al igual que con el coeficiente de variación original, el tamaño de muestra aumentará a medida que se requiera mayor precisión en la estimación; pero a diferencia del coeficiente de variación original, el tamaño de muestra será idéntico para los fenómenos que induzcan proporciones simétricas. Además, el tamaño de muestra necesario para estimar eficientemente una proporción \(P\leq 0.5\) con una precisión mayor a un determinado umbral del coeficiente de variación \(CVE\) es:

\[ n \geq \dfrac{P \ (1-P) \ DEFF}{\frac{P \ (1-P) \ DEFF}{N}+\log^2\ (P) \ P^2 \ CVE^2} \]

La expresión anterior se obtiene teniendo en cuenta el siguiente desarrollo algebraico. En particular, cuando \(P > 0,5\), se desea que el coeficiente de variación logarítmico sea menor a un umbral \(\delta\) y, por lo tanto, habiendo definido \(S^2 = P\ (1-P) \ DEFF\), se tiene la siguiente implicación.

\[ CV(\hat{L}) \leq \delta \Longrightarrow n \geq \frac{S^2}{\ \delta^2(1-\hat{P})^2\log^2(1-\hat{P}) +\frac{S^2}{N}} \]

Análogamente, cuando \(P \leq 0.5\), se tiene que

\[ CV(\hat{L}) \leq \delta \Longrightarrow n \geq \dfrac{S^2}{\frac{S^2}{N}+\log^2(\hat{P})\hat{P}^2\delta^2} \]

19.1.4 El efecto de diseño DEFF

Cuando se selecciona una muestra utilizando un diseño de muestreo complejo es muy improbable que exista independencia entre las observaciones. Además, como el muestreo de las encuestas de hogares es complejo, la distribución de la variable de interés no es la misma para todos los individuos. Por lo anterior, cuando se analizan datos que provienen de encuestas de hogares la inferencia correcta debe tener en cuenta estas grandes desviaciones con respecto al análisis estadístico clásico, que considera muestras aleatorias simples. Por ello, en la mayoría de ocasiones se necesita aumentar el tamaño de muestra para obtener la precisión deseada.

Lumley (2010) afirma que el efecto del diseño compara la varianza de una media o total con la varianza de un estudio del mismo tamaño utilizando un muestreo aleatorio simple sin reemplazo y que su cálculo será incorrecto si los pesos de muestreo se han re-escalado o no son recíprocos a las probabilidades de inclusión. Además, en R se compara la varianza de la estimación con la varianza de una estimación basada en una muestra aleatoria simple del mismo tamaño que el de la subpoblación. Entonces, por ejemplo, en el muestreo aleatorio estratificado, el efecto de diseño calculado en un estrato será igual a uno.

19.1.5 Tamaño de muestra

El tamaño de muestra afecta de manera indirecta la amplitud del intervalo de confianza, a través del error estándar, que generalmente decrece a medida que el tamaño de muestra se hace más grande. Un adecuado tamaño de muestra garantiza la convergencia en distribución de los estimadores a la distribución teórica de donde se calculan los percentiles en el cálculo del intervalo de confianza. En la fase de diseño, es posible mostrar que el tamaño de muestra requerido para estimar el promedio de una variable de interés en una encuesta de hogares, con un error de muestreo relativo menor a \(\delta \in (0,1)\) y una confianza estadística mayor a \(1-\alpha\), está dado por la siguiente expresión.

\[ n \geq \dfrac{S^2_{y}\ DEFF}{\dfrac{\delta^2 \ \bar{y}^2}{z_{1-\alpha/2}^2}+\dfrac{S^2_{y}\ DEFF}{N}} \]

En donde \(z_{1-\alpha/2}\) es el percentil (\(1- \alpha/2\)) asociado a una distribución normal estándar. Por ejemplo, en un diseño de muestreo en varias etapas, si el valor del coeficiente de correlación intraclase es grande, entonces el valor del efecto de diseño DEFF también lo será y por consiguiente el tamaño de muestra deberá ser más grande. Por ejemplo, al medir ingresos en la región, debido a la realidad económica de los países, es común encontrar que las condiciones de la vivienda está altamente asociado con el ingreso de los individuos. Esto quiere decir que los ingresos no están uniformemente dispersos a través de todos los hogares, y por ende el coeficiente de correlación intraclase será alto. Por otro lado, si lo que se quiere estimar es una proporción \(P\), entonces la expresión apropiada para calcular el tamaño de muestra estará dada por

\[ n \geq \dfrac{P\ (1-P)\ DEFF}{\dfrac{\delta^2}{z_{1-\alpha/2}^2 }+\dfrac{P\ (1-P) \ DEFF}{N}} \]

Como se puede apreciar, el tamaño de muestra es un indicador de la calidad de la encuesta, el cual resulta ser muy importante en la etapa de planeación y diseño. Sin embargo se tiene que considerar que:

  • Si el parámetro de interés fue tenido en cuenta en la planeación de la encuesta con el propósito de tener representatividad sobre una subpoblación, entonces el tamaño de muestra será apropiado y, por ende, el error de muestreo estará controlado, al igual que el coeficiente de variación, el intervalo de confianza y la precisión de la inferencia será óptima.
  • Si el parámetro de interés fue tenido en cuenta en la planeación de la encuesta, pero hubo una alta tasa de no respuesta, entonces el tamaño de muestra será mucho menor al planeado inicialmente y, por ende, el error de muestreo será más alto, al igual que el coeficiente de variación, y el intervalo de confianza será muy ancho, haciendo que la precisión de la inferencia no sea apropiada.
  • Si el parámetro de interés no fue contemplado en la planeación y diseño de la encuesta de hogares, entonces es posible que el tamaño de muestra sea menor al necesario y, por ende, el error de muestreo será mayor, junto con el coeficiente de variación; por ende, el intervalo de confianza será más amplio y la precisión de la inferencia será deficiente.

19.1.6 Tamaño de muestra efectivo

El principio general detrás de esta medida está supeditado a que en la inferencia propia de las encuestas de hogares con diseños de muestreo complejos no existe una sucesión de variables que sean independientes e idénticamente distribuidas. Por lo tanto, si se piensa en la muestra \((y_1, \ldots, y_n)\) como un vector en el espacio \(n\)-dimensional, el estándar clásico de la teoría estadística asumiría que cada componente del vector puede variar por sí mismo. Sin embargo, debido a la forma jerárquica de la selección de los hogares y a la interrelación de la variable de interés con las UPM, la variabilidad de la inferencia en las encuestas complejas tiene un fuerte componente asociados al mismo conglomerado, por lo que la dimensión final del vector \((y_1, \ldots, y_n)\) es mucho menor que \(n\). De esta forma, se ha definido el tamaño de muestra efectivo (UN 2005, cap. 6) como sigue \[ n_{eff} = \frac{n}{DEFF} \]

En resumen, el diseño clásico de las encuestas de hogares consiste en seleccionar un conjunto de hogares dentro de una misma UPM y repetir esta estrategia de selección sistemáticamente en todo el país. Por lo tanto, se puede pensar en que, si la variable de interés tiene una alta correlación intraclase, entonces la realidad de las personas y de los hogares dentro de una misma UPM será muy homogénea, tanto que se podría interpretar como que la información estuviese repetida, y que los individuos u hogares de una misma UPM no estuvieran aportando de manera diferenciada. Por lo tanto, debido a los efectos del diseño de muestreo complejo, la cantidad de individuos que están aportando a la inferencia del indicador no es el número de personas, ni el número de hogares en la muestra, sino el tamaño de muestra efectivo \(n_{eff}\), que deflacta los efectos de aglomeración.

19.1.7 Grados de libertad

La amplitud del intervalo de confianza de un indicador no sólo está supeditada al error estándar, sino también al percentil de la distribución \(t-student\) con sus correspondientes grados de libertad. De esta manera, entre más grados de libertad se consideren, menor será la amplitud del intervalo y mayor será la precisión de la inferencia. En el caso más general en donde la subpoblación sea toda la población objetivo, los grados de libertad se reducen a la siguiente expresión:

\[ gl = \# UPM - \# Estratos \]

Los grados de libertad constituyen una medida de cuántas unidades independientes de información se tienen en la inferencia. Nótese que, en el caso extremo de realizar un censo en cada UPM, sin importar el número de individuos que componen el conglomerado, el número de unidades independientes será únicamente el número de UPM seleccionadas en la primera etapa de muestreo puesto que la UPM es la unidad de muestreo que contribuye en mayor medida a la variabilidad de las estimaciones. En las aplicaciones reales de encuestas de hogares, en donde se realiza un submuestreo dentro de la UPM, la variabilidad de la estimación puede verse como la contribución del conglomerado a la gran media, más una contribución (considerada insignificante) de la segunda etapa de muestreo. Nótese la importancia de utilizar la distribución \(t-student\) como base inferencial para la construcción de los intervalos de confianza. Recuérdese además que el percentil 0.975 para la distribución \(t-student\) varía con respecto a sus grados de libertad.

A nivel desagregado, los grados de libertad son determinantes a la hora de hacer inferencias dentro de subpoblaciones de interés. En este caso los grados de libertad no se consideran fijos sino variables. Korn y Graubard (1999, 209) proponen el siguiente método de cálculo sobre los grados de libertad en una subpoblación \(U_g\):

\[ gl_{g} = \sum_{h=1}^H v_h*(n_{Ih}^g - 1) \]

En donde \(v_h\) es una variable indicadora que toma el valor uno si el estrato \(h\) contiene uno o mas casos de la subpoblación de interés y toma el valor cero en otro caso, \(n_{Ih}^g\) es el número de unidades primarias de muestreo en el estrato \(h\) \((h=1, \ldots, H)\) con uno o más casos de la subpoblación.

19.1.8 Conteo de casos no ponderado

El número de casos no ponderados en una muestra es simplemente el conteo de los individuos dentro de la muestra que son afectados por un fenómeno de interés en estudio. Esta cifra está supeditada únicamente a razones y proporciones y tiene un efecto indirecto en la determinación de la precisión del estimador de interés y está determinada por la siguiente expresión.

\[ n_y = \sum_{s}\delta_{k}^y \]

En donde \(\delta_{k}^y\) es una variable indicadora sobre cada individuo \(k\) de la muestra \(s\) que toma el valor de uno si el individuo está afectado por el fenómeno inducido por la variable de interés \(y\). Nótese que esta es una cantidad aleatoria por definición, y también puede ser calculada en la muestra de un subgrupo poblacional específico \(U_g\), de la siguiente manera:

\[ n_y^g = \sum_{s}z_{g_k}\delta_{k}^y = \sum_{s_g}\delta_{k}^y \]

Si la incidencia del fenómeno es muy baja (cuando la proporción \(P\) es cercana a cero), tanto el coeficiente de variación original y su transformación logarítmica tendrán magnitudes altas, puesto que:

\[ \lim_{n_y \rightarrow 0} CV(\hat \theta) = \lim_{n_y \rightarrow 0} CV(\hat L) = \infty \]

En muchos países las encuestas de hogares son usadas por las autoridades gubernamentales para asignar recursos a una población potencial. En estos casos, es de particular interés conocer el número de personas que serán susceptible de participar en la repartición de recursos. Por ende, si la estimación de la incidencia total del fenómeno en la población no es precisa, difícilmente se podrá establecer un rubro presupuestal para atender a esta población. Por ejemplo, si la estimación del total de personas afectadas por el fenómeno es del orden de 5% y su margen de error es 5%, entonces el coeficiente de variación será de 100% y el intervalo de confianza de la proporción será \((0 \%, 10 \%)\), demasiado amplio para tomar algún tipo de decisión sobre los recursos públicos de un país. Nótese que esta amplitud se magnifica cuando el número de casos no ponderado no es suficiente.

Referencias

Barnett-Walker, Kortnee C., James R. Chromy, Teresa R. Davis, Steven L. Emrich, Dawn M. Odom, y Lisa E. Packer. 2003. «2001 National Household Survey on Drug Abuse».
Heeringa, Steven G., Brady T. West, y Patricia A. Berglund. 2010. Applied survey data analysis. Chapman y Hall/CRC statistics en the social y behavioral sciences series. CRC Press.
Korn, Edward Lee, y Barry I. Graubard. 1999. Analysis of health surveys. Wiley.
Lumley, Thomas. 2010. Complex surveys: a guide to analysis using R. Wiley series en survey methodology. Wiley.
Särndal, Carl-Erik, Bengt Swensson, y Jan Wretman. 2003. Model Assisted Survey Sampling. Springer Science; Business Media.
Singh, A. C., M. Westlake, y M. Feder. 2004. «A generalization of the Coefficient of variation with application to suppression of imprecise estimates». En.
UN. 2005. Household surveys in developing and transition countries. Studies en methods / United Nations, Department of Economic y Social Affairs, Statistics Division Series F.