Metodología para la extracción de metadatos semánticos de textos en español utilizando procesamiento de lenguaje natural: subaplicación para la identificación de contextos espaciales y temporales en textos que describan interacciones entre actores

Fecha

2009

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad EAFIT

Resumen

En este trabajo describe el proceso por el cual se ha efectuado la extracción de información e identificación de eventos en un corpus construido para estos fines y compuesto por textos históricos pertenecientes a la Iglesia Católica en el s. XIX en Colombia entre los años 1869 y 1880, con un tamaño de 224 documentos. Este material pertenece a los archivos de la Arquidiócesis de Medellín y ha sido recopilado y suministrado por el padre Iván Darío Toro, Decano de la facultad de Filosofía y Teología de la Fundación Universitaria Luis Amigó y docente de la Escuela de Administración y Negocios de la Universidad EAFIT. Los procesos de extracción de información incluyeron la identificación automática de personajes, lugares y fechas por medio de la aplicación de algoritmos y heurísticas empleadas en las bibliotecas digitales. La identificación de eventos se llevó a cabo utilizando la combinatoria de las etiquetas extraídas previamente del corpus.

Descripción

Palabras clave

EXTRACCIÓN DE INFORMACIÓN, CORPUS HISTÓRICOS, RECUPERACIÓN DE INFORMACIÓN, LINGÜÍSTICA COMPUTACIONAL

Citación