15.1 Algunos métodos de detección de valores extremos

Filzmoser, Gussenbauer, y Templ (2016) afirma que en el proceso de entrada de datos se pueden cometer errores. Por ejemplo, la introducción de valores de gasto imposibles, es decir, valores que son demasiado altos o demasiado bajos para ser plausibles. Estos valores extremos pueden tener un impacto significativo en algunos análisis particulares (como por ejemplo en el estudio de indicadores de desigualdad, o ajuste de modelos de regresión) que pueden verse significativamente afectados por un número reducido de valores influyentes en el conjunto de datos. En esta sección se realizará un recorrido no exhaustivo sobre algunos métodos para detectar valores extremos.

15.1.1 Método Top-Down

Suponga que \(y_{(1)}\le\cdots\le y_{(n)}\) denota los valores ordenados de la variable de interés \(y\) en la muestra \(s\). Considerando el total de la variable de interés para todos los elementos en la muestra, se define el porcentaje de contribución acumulado \(P_j\) de la siguiente manera:

\[ P_j=100\times\frac{\sum_{i=j}^n y_{(i)}}{\sum_{k=1}^n y_k}; \ \ \ \ \ \ \ j = 1, \ldots, n. \]

Grandes cambios entre los valores de \(P_j\) significan posibles valores atípicos. También es posible calcular esta medida incluyendo el peso de muestreo para localizar qué valores ponderados tienen efectos anormalmente grandes.

\[ P_j^*=100\times\frac{\sum_{i=j}^n d_i \ y_{(i)}}{\hat t_{y, \pi}}; \ \ \ \ \ \ \ j = 1, \ldots, n. \]

15.1.2 Método de boxplot

Uno de los métodos más básicos para identificar valores atípicos es construir un diagrama de caja utilizando la mediana y el rango intercuartílico \((RIC)\) de la variable de interés. En primer lugar, se define su \(RIC = Q_3 - Q_1\) y su mediana como \(m=Q_2\). Por consiguiente, un elemento se marcará como un valor atípico si cae fuera del siguiente intervalo:

\[ (m-c \times RIC,\ m+c \times RIC) \] En donde \(c\) es una constante predeterminada por el investigador, usualmente fijada entre 1.5 y 3.

15.1.3 Transformación de Box-Cox

Si la distribución de la variable es sesgada (como usualmente lo son los ingresos y gastos), es útil transformar la distribución para lograr una distribución simétrica antes de determinar los posibles valores atípicos. La transformación de Box-Cox se tiene la siguiente forma:

\[ y(\lambda)= \left\{ \begin{matrix}\frac{y^\lambda-1}{\lambda},\; si\ \lambda\neq0,\\ log(y),\;si\ \lambda=0 \end{matrix}\right. \]

En donde \(\lambda\in(-5,5)\). De esta forma, un ordenador iterará entre cada posible valor de \(\lambda\) para encontrar el que mejor reproduzca una distribución normal. Con esta nueva distribución, se puede utilizar el criterio de decisión de boxplot.

15.1.4 Método de distancia estandarizada

La transformación anterior solo funciona para valores positivos. El siguiente método muestra otra forma de transformar y estandarizar los datos. Suponga que \(z_k=w_ky_k\); si \(m_z\) es una estimación para la ubicación de \(z\), y \(\sigma_z\) es una estimación para la escala de \(z\). Entonces, la distancia estandarizada puede entonces definirse como

\[ \delta_{z_k}=\frac{z_k-m_z}{\sigma_z} \]

De forma similar al método de boxplot, los registros se clasificaran como valores atípicos si el valor absoluto de \(\delta_{z_k}\) es mayor que un umbral predeterminado (normalmente 3). La media y la varianza de la muestra se pueden utilizar para las estimaciones de ubicación y escala para \(z_k\), pero no son robustas, ya que incluirán los valores atípicos potenciales, lo que a su vez reduce la probabilidad de que se identifiquen correctamente los registros atípicos. Por consiguiente, es posible utilizar estimadores robustos (resistentes a valores atípicos) para \(m_z\) y \(\sigma_z\), como por ejemplo la mediana y el rango intercuartílico de \(z_k\), respectivamente.

15.1.5 Método de Hidiroglou-Bertholot

Es posible utilizar una distancia estandarizada para detectar si la relación entre dos variables \(x\) y \(y\) en una unidad de la muestra difiere estructuralmente de las otras unidades en la muestra. Este método utiliza la idea de distancia estandarizada y también incorpora una medida de importancia para el tamaño de la unidad, con el fin de determinar el umbral para considerar un registro como un valor atípico. El algoritmo de identificación sigue los siguientes pasos:

  1. Para cada elemento calcular \(r_k=y_k/x_k\) para \(k\in s\).
  2. Transformar los datos para poder detectar valores atípicos en cualquier extremo de la distribución. Los datos transformados están dados por: \[s_k=\left\{\begin{matrix}1-\frac{med(r_k)}{r_k},\;\ si\ 0\le r_k\le m e d(r_k)\\\frac{med(r_k)}{r_k}-1,\;\ en \ otro \ caso\\\end{matrix}\right.\] En donde \(med(r_k)\) corresponde a la mediana de los cocientes definidos en el paso anterior.
  3. Incorporar la magnitud de los datos calculando los efectos \(E_k\) dados por \[ E_k = s_k \left( \max(x_k,y_k) \right)^\phi \] El parámetro \(\phi\) proporciona una medida de control para el impacto del tamaño en el efecto.
  4. A continuación, calcular el primer, segundo y tercer cuartil de los efectos dados por \(E_{Q_1}, \ E_{Q_2}, \ E_{Q_3}\), respectivamente.
  5. Los rangos intercuartílicos se calculan entonces como \[ d_{Q_1} = \max\left(E_{Q_2} - E_{Q_1}\ , \ |0.5 \times E_{Q_2}|\right) \] \[ d_{Q_3} = \max\left(E_{Q_3} - E_{Q_2}\ , \ |0.5 \times E_{Q_2}|\right) \]

Nótese que la cantidad \(|0.5*E_{Q_2}|\) es utilizada para reducir la tendencia a declarar falsos valores atípicos. Por ejemplo, esto ayudaría si la mayoría de los valores estuvieran agrupados alrededor de un valor particular, con unos pocos registros desviándose de él. Por último, los registros son declarados como valores atípicos si el valor de su efecto \(E_k\) queda fuera del intervalo \((E_{Q_2} - c \times d_{Q_1} \ , \ E_{Q_2} + c \times d_{Q_3})\); en donde al igual que en el método de boxplot, \(c\) controla el ancho de la región de aceptación.

15.1.6 Método de la distancia de Mahalanobis

Este método tiene en cuenta la estructura multidimensional de los datos observados en todos los registros comunes de un mismo módulo; por ejemplo, en el módulo de ingresos del hogar en una encuesta de hogares, o en el módulo de gastos de una encuesta de presupuestos familiares. En primer lugar, se supone que \(\mathbf{y}_k = (y_{k1}, y_{k2}, \ldots, y_{kQ} )'\) define el vector de valores observados del individuo \(k\) en todas las \(Q\) variables del módulo de interés. Por tanto, la distancia de Mahalanobis para una unidad se puede definir como \[ MD_k^2=(\mathbf{y}_k-\bar{\mathbf{y}})' \ \mathbf{S}^{-1} \ (\mathbf{y}_k-\bar{\mathbf{y}}) \]

En donde \(\bar{\mathbf{y}}\) y \(\mathbf{S}\) son respectivamente el vector de medias muestrales y la matriz de covarianzas de las \(Q\) variables en el módulo. Si los datos siguen una distribución normal multivariante, se puede demostrar que la distribución de esta distancia es Ji-cuadrado con \(Q\) grados de libertad, \(MD_k^2 \sim \chi_Q^2\). A continuación, las unidades se declaran como potencialmente atípicas si superan el umbral del percentil 0.95 de la distribución \(\chi_{Q}^2\).

15.1.7 La distancia de Cook

Los registros influyentes son valores atípicos que afectan significativamente a los modelos de regresión. Para ubicarlos, es posible utilizar la distancia de Cook, que mide cuánto impacta la unidad \(i\)-ésima en la estimación de la unidad \(j\)-ésima, en un modelo de regresión con \(p\) variables explicativas. Esta medida está dada por la siguiente expresión:

\[ DC_{(i)} = \dfrac{\sum_{\substack{j=1\\ j\neq i}}^{n}(\hat y_j- \hat y_{j(i)})^2}{(p+1) \hat{\sigma}^2} \]

En donde \(\hat{\sigma}^2 = \frac{\sum_k (\varepsilon_k - \bar{e})^2}{n-p}\) es la varianza de los residuales del modelo \((\varepsilon_k)\); además, \(\hat y_j\) es la estimación de la \(j\)-ésima unidad en el modelo de regresión ajustado con todos los datos observados, mientras que \(\hat y_{j(i)}\) es la estimación de la \(j\)-ésima unidad cuando se excluye la \(i\)-ésima unidad. Entre más grande sea el valor de la estadística, es más probable que la observación de la unidad \(i\) se considere como un valor influyente. Algunos autores afirman que cualquier valor \(DC_{(i)}\) mayor que uno debe considerarse influyente, mientras que otros afirman que el umbral debe ser \(4/n\) o \(4/(n-p-1)\).

15.1.8 El criterio DFBETAS

Por otra parte, el estadístico DFBETAS mide cuánto influye la observación \(i\)-ésima en los estimadores de los coeficientes de regresión en un modelo lineal. La estadística se puede escribir como sigue:

\[ DFBETAS_{j(i)} = \dfrac{b_j-b_{j(i)}}{\sqrt{S^2_{(i)}C_{jj}}} \]

En donde \(b_j\) es la estimación para el \(j\)-ésimo coeficiente de regresión, \(b_{j(i)}\) es la estimación calculada sin la observación \(i\)-ésima; además \(S^2_{(i)}\) es la varianza muestral de la variable de interés sin la observación \(i\)-ésima y \(C_{jj}\) es el \(j\)-ésimo elemento de la diagonal de la matriz \((\mathbf x' \mathbf x)\), de dimensión \(n\times n\). Es posible considerar que cualquier cifra cuyo valor absoluto sea mayor o igual que \(2/\sqrt n\) determina que el valor atípico es influyente.

Referencias

Filzmoser, P., J. Gussenbauer, y M. Templ. 2016. Detecting outliers in household consumption survey data. Final Report Contract with the World Bank. Vienna University of Technology.