Publicación:
El efecto del pre-procesamiento de textos en clasificadores del lenguaje natural : casos de uso en análisis de sentimientos y detección de sátiras en noticias

Fecha

2018

Autores

Torres Botero, Camilo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad EAFIT

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

El pre-procesamiento en la clasificación automática de documentos es una etapa que hace parte del proceso de aprendizaje supervisado y se ejecuta regularmente en las investigaciones enfocadas en resolver problemas de categorización relativos al Procesamiento del Lenguaje Natural (PLN). El pre-procesamiento puede tratarse desdedospuntosdevista:(1) desde la reducción de la dimensionalidad y remoción de ruido en los datos, sin hacer énfasis en la evaluación de los efectos positivos o negativos en los resultados de la clasificación; (2) con el propósito de evaluar sus efectos realizando experimentos enfocados en un solo contexto o en un algoritmo de clasificación o en un solo método de ponderación o en métodos de limpieza diferentes a los ejecutados en este trabajo. El objetivo de esta investigación es evaluar los efectos positivos y negativos del pre-procesamiento en la clasificación automática de textos, aplicando técnicas de limpieza y ponderación tradicionales desde el punto de vista de la representación de los mismos usando el modelo de espacio vectorial en el contexto de documentos formales e informales. Este proyecto se desarrolla bajo una investigación empírica la cual parte de unas preguntas de investigación, seguidas de un diseño experimental el cual habilita la ejecución de experimentos. Estos se realizan en dos tipos de dominio que incluyen textos con características informales (tweets) y textos con características formales (noticias), pretendiendo así conocer los cambios de los efectos en documentos con propiedades distintas. Finalmente, el análisis de los resultados muestra que de las técnicas usadas en los experimentos las más representativas son reducción de términos a la raíz (stemming), la normalización de letras repetidas, y la remoción de URLs ya que al combinarlas producen efectos positivos en las métricas. Así se concluye que en algunos casos los textos informales son más receptivos a la reducción de términos a la raíz y los textos formales son más susceptibles a los efectos negativos del pre-procesamiento.

Palabras clave

Citación