6.7 Evaluación

Como se ha discutido, las técnicas de clasificación para el emparejamiento de datos buscan maximizar la calidad de los resultados. No obstante, evaluar dicha calidad requiere la existencia de un conjunto de referencia, es decir, un conjunto donde se conozca con certeza si cada par de registros corresponde a la misma entidad o no. Esta información debe reflejar fielmente las características de los datos reales bajo análisis (P. Christen 2012).

En el contexto de censos y encuestas de cobertura, un emparejamiento correcto implica que un registro del censo y uno de la encuesta representan a la misma persona. De manera análoga, un par no emparejado representa dos entidades distintas. La disponibilidad de datos de referencia permite calcular métricas similares a las usadas en modelos de aprendizaje automático para problemas de clasificación binaria (Menestrina, Whang, and Garcia-Molina 2010).

En la práctica, estos conjuntos de referencia rara vez están disponibles de forma directa. Por ello, es necesario implementar procesos de codificación manual, que consisten en realizar un muestreo de la muestra P (emparejada) y realizar la verificación manual en la muestra E (o en el censo) para verificar manualmente su veracidad. Este procedimiento puede ser costoso, especialmente si se aplican esquemas de muestreo estratificado que demanden una cantidad significativa de revisiones.

Dado un conjunto de referencia, los pares de registros se clasifican en las siguientes categorías (P. Christen 2012):

  • Verdaderos positivos (VP): pares correctamente emparejados.
  • Falsos positivos (FP): pares que fueron emparejados incorrectamente.
  • Verdaderos negativos (VN): pares correctamente no emparejados.
  • Falsos negativos (FN): pares que no fueron emparejados, pero deberían haberlo sido.

En contextos censales, suele haber un desbalance extremo entre clases. Por esta razón, métricas como la exactitud (accuracy) o la especificidad pueden ser engañosas. Por ejemplo, un clasificador que marque todos los pares como “no emparejados” puede alcanzar una alta exactitud.

6.7.1 Métricas de desempeño

Las métricas más informativas en estas operaciones estadísticas son (P. Christen 2012; Nauman and Herschel 2022):

  1. Precisión (Precision): Proporción de emparejamientos correctos entre los clasificados como positivos.

    \[prec = \frac{VP}{VP + FP}\]

  2. Exhaustividad (Recall): Proporción de emparejamientos reales detectados.

    \[rec = \frac{VP}{VP + FN}\]

  3. Medida-F (F-measure): Media armónica de precisión y exhaustividad.

    \[F_1 = 2 \cdot \frac{P \cdot R}{P + R}\]

6.7.2 Métricas de eficiencia

Además de la calidad del emparejamiento, se deben evaluar aspectos de eficiencia del proceso:

  • Reducción: proporción de pares descartados durante la etapa de indexación o bloqueo.
  • Completitud de pares: proporción de emparejamientos verdaderos que fueron efectivamente retenidos después del bloqueo.
  • Calidad de pares: proporción de los pares retenidos que son verdaderos emparejamientos.

Estas métricas son útiles para comparar algoritmos de indexación y estrategias de bloqueo.

6.7.3 Revisión clerical

En las operaciones censales, el emparejamiento automático entre la muestra de cobertura y el censo suele ser insuficiente. Por esta razón, es común implementar procesos de revisión manual, conocidas como revisión clerical, que son realizadas por un equipo de expertos, quienes validan los posibles emparejamientos ambiguos o dudosos. La calidad de esta revisión depende de múltiples factores:

  • La experiencia y entrenamiento de los revisores.
  • La disponibilidad de herramientas que faciliten la comparación contextual de los registros (por ejemplo, mostrando registros similares o agrupando por hogar).
  • El acceso a fuentes de información adicionales (como historiales de direcciones, nombres alternativos, o registros administrativos complementarios).

En resumen, la evaluación rigurosa del emparejamiento requiere no solo técnicas automáticas robustas, sino también mecanismos de validación y control de calidad que aseguren su confiabilidad.

References

Christen, Peter. 2012. Data Matching Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer.
Menestrina, David, Steven Euijong Whang, and Hector Garcia-Molina. 2010. “Evaluating Entity Resolution Results.” Proceedings of the VLDB Endowment 3 (1-2): 208–19.
Nauman, Felix, and Melanie Herschel. 2022. An Introduction to Duplicate Detection. Springer Nature.