Publicación:
El efecto del pre-procesamiento de textos en clasificadores del lenguaje natural : casos de uso en análisis de sentimientos y detección de sátiras en noticias

dc.contributor.advisorTabares Betancur, Marta Silvia
dc.contributor.authorTorres Botero, Camilo
dc.coverage.spatialMedellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degreeseng
dc.creator.emailctorres9@eafit.edu.cospa
dc.date.accessioned2018-11-02T13:24:21Z
dc.date.available2018-11-02T13:24:21Z
dc.date.issued2018
dc.descriptionEl pre-procesamiento en la clasificación automática de documentos es una etapa que hace parte del proceso de aprendizaje supervisado y se ejecuta regularmente en las investigaciones enfocadas en resolver problemas de categorización relativos al Procesamiento del Lenguaje Natural (PLN). El pre-procesamiento puede tratarse desdedospuntosdevista:(1) desde la reducción de la dimensionalidad y remoción de ruido en los datos, sin hacer énfasis en la evaluación de los efectos positivos o negativos en los resultados de la clasificación; (2) con el propósito de evaluar sus efectos realizando experimentos enfocados en un solo contexto o en un algoritmo de clasificación o en un solo método de ponderación o en métodos de limpieza diferentes a los ejecutados en este trabajo. El objetivo de esta investigación es evaluar los efectos positivos y negativos del pre-procesamiento en la clasificación automática de textos, aplicando técnicas de limpieza y ponderación tradicionales desde el punto de vista de la representación de los mismos usando el modelo de espacio vectorial en el contexto de documentos formales e informales. Este proyecto se desarrolla bajo una investigación empírica la cual parte de unas preguntas de investigación, seguidas de un diseño experimental el cual habilita la ejecución de experimentos. Estos se realizan en dos tipos de dominio que incluyen textos con características informales (tweets) y textos con características formales (noticias), pretendiendo así conocer los cambios de los efectos en documentos con propiedades distintas. Finalmente, el análisis de los resultados muestra que de las técnicas usadas en los experimentos las más representativas son reducción de términos a la raíz (stemming), la normalización de letras repetidas, y la remoción de URLs ya que al combinarlas producen efectos positivos en las métricas. Así se concluye que en algunos casos los textos informales son más receptivos a la reducción de términos a la raíz y los textos formales son más susceptibles a los efectos negativos del pre-procesamiento.spa
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Ingenieríaspa
dc.format.mimetypeapplication/pdf
dc.identifier.ddc006.35 T693
dc.identifier.instnameinstname:Universidad EAFIT
dc.identifier.reponamereponame:Repositorio Institucional Universidad EAFIT
dc.identifier.repourlrepourl:https://repository.eafit.edu.co
dc.identifier.urihttps://hdl.handle.net/10784/13082
dc.language.isospa
dc.publisherUniversidad EAFITspa
dc.publisher.facultyEscuela de Ingenieríaspa
dc.publisher.placeMedellínspa
dc.publisher.programMaestría en Ingenieríaspa
dc.rights.accessrightsinfo:eu-repo/semantics/closedAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_14cb
dc.rights.localAcceso metadatos
dc.subjectNoticiasspa
dc.subject.lembLenguajes naturalesspa
dc.subject.lembLinguística computacionalspa
dc.titleEl efecto del pre-procesamiento de textos en clasificadores del lenguaje natural : casos de uso en análisis de sentimientos y detección de sátiras en noticias
dc.typeinfo:eu-repo/semantics/masterThesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.localTesis de Maestríaspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TM
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dspace.entity.typePublication

Archivos

Bloque original
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
Camilo_TorresBotero_2018.pdf
Tamaño:
826.58 KB
Formato:
Adobe Portable Document Format
Descripción:
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.5 KB
Formato:
Item-specific license agreed upon to submission
Descripción: