Martínez Vargas, Juan DavidSepúlveda Cano, Lina María2024-11-012024https://hdl.handle.net/10784/34763En el ámbito de la digitalización documental, las tablas representan una herramienta fundamental para la organización y transmisión efectiva de información en diversas industrias. Es particularmente relevante en documentos comerciales como facturas y órdenes de compra, donde los detalles asociados a las transacciones suelen estar dispuestos en estructuras que siguen una lógica similar a la de las tablas. Estas estructuras, si bien están diseñadas para la comprensión intuitiva por parte de los humanos, presentan un reto considerable para los sistemas de extracción de información automatizados. Aunque existen múltiples esfuerzos para abordar este problema, sus resultados no son fácilmente comparables por la falta de consistencia en los conjuntos de datos utilizados para el entrenamiento y muestra de resultados, y por los propios sesgos en la información que presentan los conjuntos de datos disponibles. En este contexto, este proyecto se enfoca en realizar una evaluación comparativa del desempeño de modelos de aprendizaje profundo especializados en el reconocimiento de la estructura de datos tabulares utilizando la metodología CRISP-DM. Se presenta entonces una comparativa de dos modelos relevantes en el estado del arte: Table Transformer y Unitable, describiendo sus características y evaluando la calidad de sus inferencias con el conjunto de datos SynthTabNet, reconocido por su diversidad y relevancia. Se estandariza la representación de la estructura de la tabla que infiere cada sistema al formato HTML utilizado en SynthTabNet, y se emplea la similitud basada en la distancia de edición de árboles como la métrica de comparación entre las inferencias de los modelos y los datos anotados. Se evidenció la superioridad de Unitable sobre Table Transformer en la representación de tablas complejas. El proyecto desarrollado para estandarizar la comparación de estos dos modelos y sus resultados puede ser consultado en el repositorio público de este proyecto https://github.com/JmGarzon/TSR_model_comparison.spaAttribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)Reconocimiento de estructura de datos tabularesModelos de aprendizaje profundoSimilitud basada en la distancia de edición de árbolesComparativa de modelos para el reconocimiento de estructuras de datos tabulares : un enfoque desde el aprendizaje profundomasterThesisinfo:eu-repo/semantics/openAccessCIENCIA DE LA INFORMACIÓNADMINISTRACIÓN INDUSTRIAL - PROCESAMIENTO DE DATOSESTRUCTURA DE DATOS (COMPUTADORES)PROCESAMIENTO ELECTRÓNICO DE DATOSAcceso abierto2024-11-01Garzón Vargas, José Miguel