Comparativa de modelos para el reconocimiento de estructuras de datos tabulares : un enfoque desde el aprendizaje profundo

dc.contributor.advisorMartínez Vargas, Juan David
dc.contributor.advisorSepúlveda Cano, Lina María
dc.contributor.authorGarzón Vargas, José Miguel
dc.coverage.spatialMedellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degreeseng
dc.creator.degreeMagíster en Ciencias de Datos y Analíticaspa
dc.creator.emailjmgarzonv1@eafit.edu.co
dc.date.accessioned2024-11-01T17:29:49Z
dc.date.available2024-11-01T17:29:49Z
dc.date.issued2024
dc.descriptionEn el ámbito de la digitalización documental, las tablas representan una herramienta fundamental para la organización y transmisión efectiva de información en diversas industrias. Es particularmente relevante en documentos comerciales como facturas y órdenes de compra, donde los detalles asociados a las transacciones suelen estar dispuestos en estructuras que siguen una lógica similar a la de las tablas. Estas estructuras, si bien están diseñadas para la comprensión intuitiva por parte de los humanos, presentan un reto considerable para los sistemas de extracción de información automatizados. Aunque existen múltiples esfuerzos para abordar este problema, sus resultados no son fácilmente comparables por la falta de consistencia en los conjuntos de datos utilizados para el entrenamiento y muestra de resultados, y por los propios sesgos en la información que presentan los conjuntos de datos disponibles. En este contexto, este proyecto se enfoca en realizar una evaluación comparativa del desempeño de modelos de aprendizaje profundo especializados en el reconocimiento de la estructura de datos tabulares utilizando la metodología CRISP-DM. Se presenta entonces una comparativa de dos modelos relevantes en el estado del arte: Table Transformer y Unitable, describiendo sus características y evaluando la calidad de sus inferencias con el conjunto de datos SynthTabNet, reconocido por su diversidad y relevancia. Se estandariza la representación de la estructura de la tabla que infiere cada sistema al formato HTML utilizado en SynthTabNet, y se emplea la similitud basada en la distancia de edición de árboles como la métrica de comparación entre las inferencias de los modelos y los datos anotados. Se evidenció la superioridad de Unitable sobre Table Transformer en la representación de tablas complejas. El proyecto desarrollado para estandarizar la comparación de estos dos modelos y sus resultados puede ser consultado en el repositorio público de este proyecto https://github.com/JmGarzon/TSR_model_comparison.
dc.identifier.urihttps://hdl.handle.net/10784/34763
dc.language.isospaspa
dc.publisherUniversidad EAFITspa
dc.publisher.departmentEscuela de Ciencias Aplicadas e Ingeniería. Área Computación y Analíticaspa
dc.publisher.placeMedellín
dc.publisher.programMaestría en Ciencias de los Datos y Analíticaspa
dc.relation.urihttps://github.com/JmGarzon/TSR_model_comparison
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccesseng
dc.rights.localAcceso abiertospa
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/deed.es
dc.subjectReconocimiento de estructura de datos tabulares
dc.subjectModelos de aprendizaje profundo
dc.subjectSimilitud basada en la distancia de edición de árboles
dc.subject.lembCIENCIA DE LA INFORMACIÓN
dc.subject.lembADMINISTRACIÓN INDUSTRIAL - PROCESAMIENTO DE DATOS
dc.subject.lembESTRUCTURA DE DATOS (COMPUTADORES)
dc.subject.lembPROCESAMIENTO ELECTRÓNICO DE DATOS
dc.titleComparativa de modelos para el reconocimiento de estructuras de datos tabulares : un enfoque desde el aprendizaje profundo
dc.typemasterThesiseng
dc.typeinfo:eu-repo/semantics/masterThesiseng
dc.type.hasVersionacceptedVersioneng
dc.type.localTesis de Maestríaspa
dc.type.spaInforme

Archivos

Bloque original
Mostrando 1 - 3 de 3
No hay miniatura disponible
Nombre:
JoseMiguel_GarzonVargas_2024.pdf
Tamaño:
2.93 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
No hay miniatura disponible
Nombre:
formulario_autorizacion_publicacion_obras.pdf
Tamaño:
603.87 KB
Formato:
Adobe Portable Document Format
Descripción:
Formulario de autorización de publicación de obras
No hay miniatura disponible
Nombre:
carta_aprobacion_trabajo_grado_eafit.pdf
Tamaño:
246.69 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta de aprobación de tesis de grado
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.5 KB
Formato:
Item-specific license agreed upon to submission
Descripción: