Revisión de técnicas estadísticas bayesianas para la coincidencia de entidades en conjuntos de datos grandes

dc.contributor.advisorSuárez Sierra, Biviana Marcela
dc.contributor.authorLópez Valencia, Sebastián
dc.coverage.spatialMedellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degreeseng
dc.creator.degreeMagíster en Ciencias de Datos y Analíticaspa
dc.creator.emailslopezv2@eafit.edu.co
dc.date.accessioned2024-09-23T21:31:24Z
dc.date.available2024-09-23T21:31:24Z
dc.date.issued2024
dc.descriptionEn el contexto del análisis de datos, la coincidencia de entidades es una tarea crucial que implica identificar y emparejar registros que representan la misma entidad a través de diferentes bases de datos. Este trabajo, aborda una revisión de diversas técnicas estadísticas, con un enfoque particular en los métodos bayesianos, para abordar este problema en conjuntos de datos extensos. En el marco teórico y estado del arte, se revisan diversas técnicas de coincidencia, incluyendo métodos basados en reglas, funciones de distancia para texto, y métodos basados en aprendizaje automático. Se presentan también varias estrategias de optimización para reducir el costo computacional asociado con la coincidencia de entidades, incluyendo heurísticas, medidas de distancia menos complejas, y algoritmos de aprendizaje de rápida convergencia. Un enfoque destacado es el de agrupar y luego comparar entidades, lo cual reduce significativamente la complejidad de las comparaciones necesarias. En la sección de descripción de los datos, se detallan los procedimientos de adquisición y preprocesamiento de datos, que son fundamentales para asegurar la calidad y relevancia de los conjuntos de datos utilizados en los experimentos. La metodología de trabajo se describe en detalle, abarcando desde el conocimiento del negocio hasta la adquisición, comprensión y modelado de los datos. Finalmente, en el desarrollo de los métodos y resultados, se presentan los hallazgos obtenidos a través de la aplicación de las técnicas revisadas y propuestas en esta tesis. Las conclusiones destacan la efectividad de las técnicas bayesianas y sugieren áreas para futuras investigaciones.
dc.description.abstractIn the context of data analysis, entity matching is a crucial task that involves identifying and pairing records that represent the same entity across different data sources. This work provides a review of various statistical techniques, with a particular focus on Bayesian methods, to address this problem in large datasets. In the theoretical framework and state of the art, various matching techniques are reviewed, including rule-based methods, text distance functions, and machine learning-based methods. Several optimization strategies are also presented to reduce the computational cost associated with entity matching, including heuristics, less complex distance measures, and fast-converging learning algorithms. A notable approach is to group and then compare entities, which significantly reduces the complexity of the necessary comparisons. In the data description section, the procedures for data acquisition and preprocessing are detailed, which are fundamental to ensure the quality and relevance of the datasets used in the experiments. The work methodology is described in detail, covering everything from business knowledge to data acquisition, understanding, and modeling. Finally, in the development of methods and results, the findings obtained through the application of the reviewed and proposed techniques in this thesis are presented. The conclusions highlight the effectiveness of Bayesian techniques and suggest areas for future research.
dc.identifier.urihttps://hdl.handle.net/10784/34613
dc.language.isospaspa
dc.publisherUniversidad EAFITspa
dc.publisher.departmentEscuela de Ciencias Aplicadas e Ingeniería. Área Computación y Analíticaspa
dc.publisher.placeMedellín
dc.publisher.programMaestría en Ciencias de los Datos y Analíticaspa
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccesseng
dc.rights.localAcceso abiertospa
dc.subjectCoincidencia de entidades
dc.subjectMetodos bayesianos
dc.subjectEmparejar registros
dc.subjectIntegracion de datos
dc.subject.keywordEntity Matching
dc.subject.keywordBayesian methods
dc.subject.keyworddata integration
dc.subject.keywordentity linking
dc.subject.lembCIENCIA DE LA INFORMACIÓN
dc.subject.lembDATOS ESTADÍSTICOS
dc.subject.lembBANCOS DE DATOS
dc.subject.lembPROCESAMIENTO ELECTRÓNICO DE DATOS
dc.titleRevisión de técnicas estadísticas bayesianas para la coincidencia de entidades en conjuntos de datos grandes
dc.typemasterThesiseng
dc.typeinfo:eu-repo/semantics/masterThesiseng
dc.type.hasVersionacceptedVersioneng
dc.type.localTesis de Maestríaspa
dc.type.spaMonografía

Archivos

Bloque original
Mostrando 1 - 3 de 3
No hay miniatura disponible
Nombre:
Sebastian_LopezValencia_2024.pdf
Tamaño:
2.04 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
No hay miniatura disponible
Nombre:
formulario_autorizacion_publicacion_obras.pdf
Tamaño:
550.29 KB
Formato:
Adobe Portable Document Format
Descripción:
Formulario de autorización de publicación de obras
No hay miniatura disponible
Nombre:
carta_aprobacion_trabajo_grado_eafit.pdf
Tamaño:
102.25 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta de aprobación de tesis de grado
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.5 KB
Formato:
Item-specific license agreed upon to submission
Descripción: