Comparativa de modelos para el reconocimiento de estructuras de datos tabulares : un enfoque desde el aprendizaje profundo

Resumen

Descripción

En el ámbito de la digitalización documental, las tablas representan una herramienta fundamental para la organización y transmisión efectiva de información en diversas industrias. Es particularmente relevante en documentos comerciales como facturas y órdenes de compra, donde los detalles asociados a las transacciones suelen estar dispuestos en estructuras que siguen una lógica similar a la de las tablas. Estas estructuras, si bien están diseñadas para la comprensión intuitiva por parte de los humanos, presentan un reto considerable para los sistemas de extracción de información automatizados. Aunque existen múltiples esfuerzos para abordar este problema, sus resultados no son fácilmente comparables por la falta de consistencia en los conjuntos de datos utilizados para el entrenamiento y muestra de resultados, y por los propios sesgos en la información que presentan los conjuntos de datos disponibles. En este contexto, este proyecto se enfoca en realizar una evaluación comparativa del desempeño de modelos de aprendizaje profundo especializados en el reconocimiento de la estructura de datos tabulares utilizando la metodología CRISP-DM. Se presenta entonces una comparativa de dos modelos relevantes en el estado del arte: Table Transformer y Unitable, describiendo sus características y evaluando la calidad de sus inferencias con el conjunto de datos SynthTabNet, reconocido por su diversidad y relevancia. Se estandariza la representación de la estructura de la tabla que infiere cada sistema al formato HTML utilizado en SynthTabNet, y se emplea la similitud basada en la distancia de edición de árboles como la métrica de comparación entre las inferencias de los modelos y los datos anotados. Se evidenció la superioridad de Unitable sobre Table Transformer en la representación de tablas complejas. El proyecto desarrollado para estandarizar la comparación de estos dos modelos y sus resultados puede ser consultado en el repositorio público de este proyecto https://github.com/JmGarzon/TSR_model_comparison.

Palabras clave

Reconocimiento de estructura de datos tabulares, Modelos de aprendizaje profundo, Similitud basada en la distancia de edición de árboles

Citación