Comparativa de modelos para el reconocimiento de estructuras de datos tabulares : un enfoque desde el aprendizaje profundo
dc.contributor.advisor | Martínez Vargas, Juan David | |
dc.contributor.advisor | Sepúlveda Cano, Lina María | |
dc.contributor.author | Garzón Vargas, José Miguel | |
dc.coverage.spatial | Medellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degrees | eng |
dc.creator.degree | Magíster en Ciencias de Datos y Analítica | spa |
dc.creator.email | jmgarzonv1@eafit.edu.co | |
dc.date.accessioned | 2024-11-01T17:29:49Z | |
dc.date.available | 2024-11-01T17:29:49Z | |
dc.date.issued | 2024 | |
dc.description | En el ámbito de la digitalización documental, las tablas representan una herramienta fundamental para la organización y transmisión efectiva de información en diversas industrias. Es particularmente relevante en documentos comerciales como facturas y órdenes de compra, donde los detalles asociados a las transacciones suelen estar dispuestos en estructuras que siguen una lógica similar a la de las tablas. Estas estructuras, si bien están diseñadas para la comprensión intuitiva por parte de los humanos, presentan un reto considerable para los sistemas de extracción de información automatizados. Aunque existen múltiples esfuerzos para abordar este problema, sus resultados no son fácilmente comparables por la falta de consistencia en los conjuntos de datos utilizados para el entrenamiento y muestra de resultados, y por los propios sesgos en la información que presentan los conjuntos de datos disponibles. En este contexto, este proyecto se enfoca en realizar una evaluación comparativa del desempeño de modelos de aprendizaje profundo especializados en el reconocimiento de la estructura de datos tabulares utilizando la metodología CRISP-DM. Se presenta entonces una comparativa de dos modelos relevantes en el estado del arte: Table Transformer y Unitable, describiendo sus características y evaluando la calidad de sus inferencias con el conjunto de datos SynthTabNet, reconocido por su diversidad y relevancia. Se estandariza la representación de la estructura de la tabla que infiere cada sistema al formato HTML utilizado en SynthTabNet, y se emplea la similitud basada en la distancia de edición de árboles como la métrica de comparación entre las inferencias de los modelos y los datos anotados. Se evidenció la superioridad de Unitable sobre Table Transformer en la representación de tablas complejas. El proyecto desarrollado para estandarizar la comparación de estos dos modelos y sus resultados puede ser consultado en el repositorio público de este proyecto https://github.com/JmGarzon/TSR_model_comparison. | |
dc.identifier.uri | https://hdl.handle.net/10784/34763 | |
dc.language.iso | spa | spa |
dc.publisher | Universidad EAFIT | spa |
dc.publisher.department | Escuela de Ciencias Aplicadas e Ingeniería. Área Computación y Analítica | spa |
dc.publisher.place | Medellín | |
dc.publisher.program | Maestría en Ciencias de los Datos y Analítica | spa |
dc.relation.uri | https://github.com/JmGarzon/TSR_model_comparison | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | eng |
dc.rights.local | Acceso abierto | spa |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/deed.es | |
dc.subject | Reconocimiento de estructura de datos tabulares | |
dc.subject | Modelos de aprendizaje profundo | |
dc.subject | Similitud basada en la distancia de edición de árboles | |
dc.subject.lemb | CIENCIA DE LA INFORMACIÓN | |
dc.subject.lemb | ADMINISTRACIÓN INDUSTRIAL - PROCESAMIENTO DE DATOS | |
dc.subject.lemb | ESTRUCTURA DE DATOS (COMPUTADORES) | |
dc.subject.lemb | PROCESAMIENTO ELECTRÓNICO DE DATOS | |
dc.title | Comparativa de modelos para el reconocimiento de estructuras de datos tabulares : un enfoque desde el aprendizaje profundo | |
dc.type | masterThesis | eng |
dc.type | info:eu-repo/semantics/masterThesis | eng |
dc.type.hasVersion | acceptedVersion | eng |
dc.type.local | Tesis de Maestría | spa |
dc.type.spa | Informe |
Archivos
Bloque original
1 - 3 de 3
No hay miniatura disponible
- Nombre:
- JoseMiguel_GarzonVargas_2024.pdf
- Tamaño:
- 2.93 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Trabajo de grado
No hay miniatura disponible
- Nombre:
- formulario_autorizacion_publicacion_obras.pdf
- Tamaño:
- 603.87 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Formulario de autorización de publicación de obras
No hay miniatura disponible
- Nombre:
- carta_aprobacion_trabajo_grado_eafit.pdf
- Tamaño:
- 246.69 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Carta de aprobación de tesis de grado
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 2.5 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: