Capítulo 15 Detección de datos atípicos

En esta sección se describen los aspectos teóricos y prácticos de la identificación de valores atípicos en una base de datos completa (incluso con registros que ya han sido imputados), basándose en métodos que han mostrado buenas propiedades en la inferencia de encuestas de hogares. Después de una breve introducción, se presenta un enfoque no exhaustivo del problema de la identificación de valores atípicos, así como la teoría detrás de los métodos y algunos hallazgos empíricos de la imputación de valores atípicos.

Luego de detectar los posibles valores atípicos, el investigador debe enfrentarse al problema de decidir qué hacer con ellos; en general hay tres posible soluciones: mantenerlos en la base de datos final (sin ningún cambio), corregirlos (verificar exhaustivamente en los registros y cuestionarios, encontrar el error en la captura y reemplazarlo por el valor verdadero), o imputarlos (eliminarlos y reemplazarlos por un valor adecuado que no fue provisto por el respondiente). El enfoque de imputación de valores atípicos sigue los mismos principios que los método utilizado para imputar registros en el capítulo anterior. Al final, se recomienda que cuando se encuentren valores atípicos, se marquen para su revisión. Cuando se revisan, es posible encontrar que el valor es simplemente erróneo, debido a algún problema en la captura de los datos datos (error de medición); también es posible que el valor sea improbable y raro, pero que corresponda a un valor válido. En el primer caso el error se corrige (si el valor atípico es erróneo) y las estimaciones se ajustan. Si el valor atípico corresponde a un dato erróneo y no se puede localizar al encuestado, se recomienda imputarlo.

Por tanto, estamos interesados en detectarlos, y en solucionar el problema reemplazando los valores inverosímiles por otros más realistas. Detectar valores atípicos y distinguir aquellos que son errores de aquellos que son inusualmente altos (o bajos) pero valores correctos, es un desafío. Hacer estas correcciones en los microdatos (es decir, en los datos a nivel del hogar) se suma al desafío. En general, un valor atípico es una observación que está distante de todos las demás observaciones o datos en la variable de interés de la base de datos.

Así como los valores erróneos deben corregirse, eliminarse o imputarse, por otro lado, se deben mantener los valores improbables en el conjunto de datos y se debe tomar una decisión para reducir su impacto en el análisis de la encuesta. Hay que tener en cuenta que existen valores verídicos en las observaciones que, aunque tienen una incidencia baja, deben conservarse en el análisis. Los valores que se apartan de la distribución habitual pueden clasificarse como valores atípicos o como puntos influyentes. El tratamiento de estos valores para el análisis vendrá definido por su clasificación.

  • Valores atípicos representativos: valores que se han registrado correctamente y representan otras unidades de población con valores similares.
  • Valores atípicos no representativos: registrados incorrectamente o únicos, lo que significa que no hay otra persona como ellos.
  • Puntos de influencia: cuando el efecto conjunto del punto de datos atípicos y su respectivo peso muestral tienen un efecto significativo en la inferencia.

A menudo, los valores atípicos pueden ser representativos de otros en la población, por lo que siguen siendo importantes y deben permanecer en el conjunto de datos. Al final, el proceso de identificación de valores atípicos se trata de un compromiso entre el sesgo y la varianza. Los valores atípicos pueden tener un gran impacto en los estimadores de ubicación y escala, como la media y la varianza, así como en los estimadores de totales y tamaños de subpoblaciones. Aunque estos estimadores permanecen insesgados, su varianza crece en presencia de valores atípicos.