6.6 Clasificación
El enfoque clásico es el modelo probabilístico de Fellegi y Sunter (Fellegi and Sunter 1969), este modelo considera dos conjuntos de registros:
- \(A\): registros provenientes de la fuente 1 (por ejemplo, censo)
- \(B\): registros provenientes de la fuente 2 (por ejemplo, encuesta de cobertura)
El objetivo es determinar si un par \((a, b) \in A \times B\) representa la misma entidad (es decir, un match) o no.
Se define el universo total de pares posibles como:
\[A \cup B = M \times U\]
En donde:
- \(M\): conjunto de pares que son emparejamientos verdaderos (matches)
- \(U\): conjunto de pares que no son emparejados (non-matches)
Para cada par \((a, b)\) se define una función de comparación:
\[\boldsymbol{\gamma}(a, b) = (\gamma_1, \gamma_2, \dots, \gamma_d) \in \{0,1\}^d\]
En donde \(d\) es el número de atributos comparados (por ejemplo, nombre, sexo, fecha de nacimiento), y cada \(\gamma_j\) indica si hay coincidencia (\(\gamma_j = 1\)) o no (\(\gamma_j = 0\)) en el atributo \(j\).
El modelo asume independencia condicional de las comparaciones dado el estado del emparejamiento (match o non-match). Así, para un vector de comparación específico \(\boldsymbol{g}\), se cumple:
\[P(\boldsymbol{\gamma} = \boldsymbol{g} \mid M) = \prod_{j=1}^d m_j^{g_j} (1 - m_j)^{1 - g_j}\]
y,
\[P(\boldsymbol{\gamma} = \boldsymbol{g} \mid U) = \prod_{j=1}^d u_j^{g_j} (1 - u_j)^{1 - g_j}\]
En donde: - \(m_j = P(\gamma_j = 1 \mid M)\) es la probabilidad de coincidencia en el atributo \(j\) entre pares que son matches - \(u_j = P(\gamma_j = 1 \mid U)\) es la probabilidad de coincidencia en el atributo \(j\) entre pares que no son matches
Estos parámetros pueden estimarse mediante métodos de máxima verosimilitud, como el algoritmo EM o mediante enfoques bayesianos (William E. Winkler 2000; Larsen and Rubin 2001).
Para decidir si un par \((a, b)\) representa la misma entidad, se calcula la razón de verosimilitud (también llamada puntaje de coincidencia o match score):
\[\log L(\boldsymbol{g}) = \log P(\boldsymbol{\gamma} = \boldsymbol{g} \mid M) - \log P(\boldsymbol{\gamma} = \boldsymbol{g} \mid U)\]
Este valor representa la evidencia a favor de que el par \((a, b)\) corresponde a un emparejamiento verdadero. Cuanto mayor sea el valor de \(\log L(\boldsymbol{g})\), mayor será la probabilidad de que los registros representen a la misma persona.
Basándose en los valores del puntaje de coincidencia, se definen dos umbrales:
- Si \(\log L(\boldsymbol{g}) \geq T_M\): se clasifica como emparejado.
- Si \(\log L(\boldsymbol{g}) \leq T_U\): se clasifica como no emparejado.
- Si \(T_U < \log L(\boldsymbol{g}) < T_M\): se clasifica como emparejamiento potencial, sujeto a revisión clerical.
Este enfoque tradicional puede complementarse con modelos de aprendizaje supervisado o no supervisado. En estos casos, los pares de registros se representan como vectores de características derivadas de la comparación y se utilizan reglas de clasificación que buscan maximizar las coincidencias reales, para más detalles se recomienda consultar (P. Christen 2012, Capítulo 6).