Revisión de técnicas estadísticas bayesianas para la coincidencia de entidades en conjuntos de datos grandes

Fecha

2024

Autores

López Valencia, Sebastián

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad EAFIT

Resumen

In the context of data analysis, entity matching is a crucial task that involves identifying and pairing records that represent the same entity across different data sources. This work provides a review of various statistical techniques, with a particular focus on Bayesian methods, to address this problem in large datasets. In the theoretical framework and state of the art, various matching techniques are reviewed, including rule-based methods, text distance functions, and machine learning-based methods. Several optimization strategies are also presented to reduce the computational cost associated with entity matching, including heuristics, less complex distance measures, and fast-converging learning algorithms. A notable approach is to group and then compare entities, which significantly reduces the complexity of the necessary comparisons. In the data description section, the procedures for data acquisition and preprocessing are detailed, which are fundamental to ensure the quality and relevance of the datasets used in the experiments. The work methodology is described in detail, covering everything from business knowledge to data acquisition, understanding, and modeling. Finally, in the development of methods and results, the findings obtained through the application of the reviewed and proposed techniques in this thesis are presented. The conclusions highlight the effectiveness of Bayesian techniques and suggest areas for future research.

Descripción

En el contexto del análisis de datos, la coincidencia de entidades es una tarea crucial que implica identificar y emparejar registros que representan la misma entidad a través de diferentes bases de datos. Este trabajo, aborda una revisión de diversas técnicas estadísticas, con un enfoque particular en los métodos bayesianos, para abordar este problema en conjuntos de datos extensos. En el marco teórico y estado del arte, se revisan diversas técnicas de coincidencia, incluyendo métodos basados en reglas, funciones de distancia para texto, y métodos basados en aprendizaje automático. Se presentan también varias estrategias de optimización para reducir el costo computacional asociado con la coincidencia de entidades, incluyendo heurísticas, medidas de distancia menos complejas, y algoritmos de aprendizaje de rápida convergencia. Un enfoque destacado es el de agrupar y luego comparar entidades, lo cual reduce significativamente la complejidad de las comparaciones necesarias. En la sección de descripción de los datos, se detallan los procedimientos de adquisición y preprocesamiento de datos, que son fundamentales para asegurar la calidad y relevancia de los conjuntos de datos utilizados en los experimentos. La metodología de trabajo se describe en detalle, abarcando desde el conocimiento del negocio hasta la adquisición, comprensión y modelado de los datos. Finalmente, en el desarrollo de los métodos y resultados, se presentan los hallazgos obtenidos a través de la aplicación de las técnicas revisadas y propuestas en esta tesis. Las conclusiones destacan la efectividad de las técnicas bayesianas y sugieren áreas para futuras investigaciones.

Citación