6.2 Flujo general

La Figura 6.1 muestra los pasos principales del proceso de emparejamiento. El primer paso es el preprocesamiento de datos, cuyo objetivo es asegurar que los datos de ambas fuentes estén en un formato uniforme y comparable.

El segundo paso se conoce como indexación, acá se busca reducir la complejidad cuadrática del proceso de emparejamiento mediante el uso de estructuras de datos que permiten generar de manera eficiente y efectiva pares de registros candidatos que probablemente correspondan a la misma persona.

En el tercer paso, se realiza la comparación de pares de registros, donde los pares candidatos generados a partir de la indexación se comparan utilizando varias variables.

En el paso de clasificación, los pares de registros se asignan a una de tres categorías: emparejados, no emparejados y emparejamientos potenciales. Si los pares se clasifican como emparejamientos potenciales, se requiere una revisión clerical manual para decidir su estado final (emparejado o no emparejado). En el paso final, se analiza la calidad y la completitud de los datos emparejados.

Para la deduplicación de una única base de datos, todos los pasos del proceso de vinculación siguen siendo aplicables. El preprocesamiento es esencial para asegurar que la base completa esté estandarizada, especialmente si los registros han sido ingresados en diferentes momentos, lo que puede haber introducido variaciones en los formatos o en los métodos de captura de datos. La etapa de indexación también es crítica en la deduplicación, ya que comparar cada registro con todos los demás implica un alto costo computacional.

Figure 6.1: Flujo general del proceso de emparejamiento

Para ilustrar las tareas involucradas a lo largo del proceso de emparejamiento de registros, se utilizará un ejemplo compuesto por dos tablas de datos artificiales.

load("data/censo.rda")
load("data/encuesta.rda")

A continuación se presenta la estructura para los primeros registros de la tabla censo:

id_segmento	id_hogar	id_censo	nombre	apellido	sexo	anio_nac	mes_nac	dia_nac	parentesco
Tabla censo
101	H101_1	c1	Carlos	Pérez	M	1947	1	1	Jefe
101	H101_1	c2	Lucía	Castro	F	1975	1	1	Hijo/a
101	H101_1	c3	Camila	Castro	F	2012	1	1	Hijo/a
101	H101_1	c4	María	Castro	F	1959	1	1	Nieto/a
102	H102_1	c5	Jorge	Gómez	M	1954	1	1	Jefe
102	H102_1	c6	Sofía	Ramírez	F	2000	1	1	Hijo/a

La tabla encuesta presenta la siguiente estructura para los primeros registros:

id_segmento	id_hogar	id_encuesta	nombre_completo	sexo	fecha_nacimiento	parentesco
Tabla encuesta
101	H101_1	e1	María Castro	F	1959-1-1	Nieto/a
101	H101_1	e2	Carlos Pérez	M	1947-1-1	Jefe
101	H101_1	e3	Lucía Castro	F	1975-1-1	Hijo/a
101	H101_10	e4	Camila Ramírez	F	2010-1-1	Hijo/a
101	H101_2	e5	Sofíá Cástro	F	1966-1-1	Jefe
101	H101_2	e6	Ana Martínez	F	1973-1-1	Cónyuge

El objetivo es realizar un proceso de emparejamiento de las dos tablas anteriores. Como puede observarse, aunque ambas contienen información sobre nombre, apellido, sexo, fecha de nacimiento, parentesco y barrio, la estructura de las dos tablas es diferente, al igual que el formato de los valores almacenados en algunas de ellas.