Definición de una metodología para análisis de discurso basado en lingüística computacional y técnicas de aprendizaje de máquina

Resumen

The different actions carried out by a state regulatory body generate multiple opinions among citizens, which form debates among people, causing them to agree, disagree or partially agree with the decisions or strategies proposed. In order to know the opinions of the citizens, in Chile a project called "Tenemos que hablar Chile" (We have to talk Chile) was created, which asked structured questions to a group of citizens, where the answer of each person was classified by the moderator. each person's answer was classified by the moderator. This label was used for different discourse analyses that began to be developed without any specific order. This project was replicated in Colombia, under the same dynamics in order to know the opinions of the citizens, however, the techniques used were different from the Chilean project. As a result, it is observed that although both projects had the same dynamics and sought a similar result, it was not possible to reuse the techniques developed in the Chilean project in Colombia. Due to this, the proposal of this master's project seeks the implementation of a methodology that allows the use of different techniques of discourse analysis based on computational linguistics and machine learning that will provide the team of analysts with a scheme of stages which will have tools and techniques of Natural Language processing (NLP) to improve the efficiency of this type of projects. Within this project we can highlight the strengths of the director who has a high experience in Machine Learning (ML) and NLP, in addition to the strengths of the co-director with a broad understanding of the project "Tenemos que Hablar Colombia" (TQHC), and finally the student of this project with a base in the Master of Data Science and Analytics to generate a research on NLP techniques.

Descripción

Las diferentes acciones realizadas por un ente regulador del estado, generan múltiples opiniones entre los ciudadanos, las cuales forman debates entre las personas haciendo que se encuentren de acuerdo, desacuerdo o parcialmente de acuerdo con las decisiones o estrategias planteadas. Con el fin de conocer las opiniones de los ciudadanos, en Chile se origina un proyecto llamado “Tenemos que hablar Chile” el cual realizaba preguntas estructuradas a un grupo de ciudadanos, donde la respuesta de cada persona era clasificada por el moderador. Dicha etiqueta fue utilizada para diferentes análisis de discurso que se empezaron a desarrollar sin ningún orden específico. Este proyecto fue replicado en Colombia, bajo la misma dinámica para así conocer las opiniones de los ciudadanos, sin embargo, las técnicas utilizadas fueron diferentes al proyecto chileno. Como resultado, se observa que a pesar de que ambos proyectos tenían la misma dinámica y buscaban un resultado similar, no se pudo reutilizar las técnicas desarrolladas en el proyecto de Chile en Colombia. Debido a esto, la propuesta de este proyecto de maestría busca la implementación de una metodología que permite usar diferentes técnicas de análisis de discurso basado en lingüística computacional y aprendizaje de máquina que dote al equipo de analistas con un esquema de etapas las cuales contarán con herramientas y técnicas de Natural Language processing (NLP, por sus siglas en inglés) para mejorar la eficiencia de este tipo de proyectos. Dentro de este proyecto se puede destacar las fortalezas del director quien tiene una alta experiencia en Machine Learning (ML, por sus siglas en ingles) y de NLP, además de las fortalezas del codirector con un amplio entendimiento del proyecto de "Tenemos que Hablar Colombia” (TQHC), y finalmente el estudiante de este proyecto con una base en la Maestría de Ciencia de los Datos y Analítica para generar una investigación sobre las técnicas de NLP.

Palabras clave

Metodología, Análisis de sentimientos, Análisis de discurso, Analítica de texto, Tokenización, Stopwords, Lemmatization, LDA, Procesamiento de lenguaje natural, Clasificación, Lingüística computacional, Information Retrieval

Citación