6.6 Clasificación

El enfoque clásico es el modelo probabilístico de Fellegi y Sunter (Fellegi and Sunter 1969), este modelo considera dos conjuntos de registros:

  • \(A\): registros provenientes de la fuente 1 (por ejemplo, censo)
  • \(B\): registros provenientes de la fuente 2 (por ejemplo, encuesta de cobertura)

El objetivo es determinar si un par \((a, b) \in A \times B\) representa la misma entidad (es decir, un match) o no.

Se define el universo total de pares posibles como:

\[A \cup B = M \times U\]

En donde:

  • \(M\): conjunto de pares que son emparejamientos verdaderos (matches)
  • \(U\): conjunto de pares que no son emparejados (non-matches)

Para cada par \((a, b)\) se define una función de comparación:

\[\boldsymbol{\gamma}(a, b) = (\gamma_1, \gamma_2, \dots, \gamma_d) \in \{0,1\}^d\]

En donde \(d\) es el número de atributos comparados (por ejemplo, nombre, sexo, fecha de nacimiento), y cada \(\gamma_j\) indica si hay coincidencia (\(\gamma_j = 1\)) o no (\(\gamma_j = 0\)) en el atributo \(j\).

El modelo asume independencia condicional de las comparaciones dado el estado del emparejamiento (match o non-match). Así, para un vector de comparación específico \(\boldsymbol{g}\), se cumple:

\[P(\boldsymbol{\gamma} = \boldsymbol{g} \mid M) = \prod_{j=1}^d m_j^{g_j} (1 - m_j)^{1 - g_j}\]

y,

\[P(\boldsymbol{\gamma} = \boldsymbol{g} \mid U) = \prod_{j=1}^d u_j^{g_j} (1 - u_j)^{1 - g_j}\]

En donde: - \(m_j = P(\gamma_j = 1 \mid M)\) es la probabilidad de coincidencia en el atributo \(j\) entre pares que son matches - \(u_j = P(\gamma_j = 1 \mid U)\) es la probabilidad de coincidencia en el atributo \(j\) entre pares que no son matches

Estos parámetros pueden estimarse mediante métodos de máxima verosimilitud, como el algoritmo EM o mediante enfoques bayesianos (William E. Winkler 2000; Larsen and Rubin 2001).

Para decidir si un par \((a, b)\) representa la misma entidad, se calcula la razón de verosimilitud (también llamada puntaje de coincidencia o match score):

\[\log L(\boldsymbol{g}) = \log P(\boldsymbol{\gamma} = \boldsymbol{g} \mid M) - \log P(\boldsymbol{\gamma} = \boldsymbol{g} \mid U)\]

Este valor representa la evidencia a favor de que el par \((a, b)\) corresponde a un emparejamiento verdadero. Cuanto mayor sea el valor de \(\log L(\boldsymbol{g})\), mayor será la probabilidad de que los registros representen a la misma persona.

Basándose en los valores del puntaje de coincidencia, se definen dos umbrales:

  • Si \(\log L(\boldsymbol{g}) \geq T_M\): se clasifica como emparejado.
  • Si \(\log L(\boldsymbol{g}) \leq T_U\): se clasifica como no emparejado.
  • Si \(T_U < \log L(\boldsymbol{g}) < T_M\): se clasifica como emparejamiento potencial, sujeto a revisión clerical.

Este enfoque tradicional puede complementarse con modelos de aprendizaje supervisado o no supervisado. En estos casos, los pares de registros se representan como vectores de características derivadas de la comparación y se utilizan reglas de clasificación que buscan maximizar las coincidencias reales, para más detalles se recomienda consultar (P. Christen 2012, Capítulo 6).

References

Christen, Peter. 2012. Data Matching Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer.
Fellegi, Ivan P, and Alan B Sunter. 1969. “A Theory for Record Linkage.” Journal of the American Statistical Association 64 (328): 1183–1210.
Larsen, Michael D, and Donald B Rubin. 2001. “Iterative Automated Record Linkage Using Mixture Models.” Journal of the American Statistical Association 96 (453): 32–41.
Winkler, William E. 2000. Using the EM Algorithm for Weight Computation in the Fellegi-Sunter Model of Record Linkage. US Bureau of the Census Washington, DC.