Análisis de discurso basado en modelos grandes de lenguaje

Jiménez Jaimes, Edgar Leandro

Análisis de discurso basado en modelos grandes de lenguaje

Archivos

carta_aprobacion_trabajo_grado_eafit.pdf (72.96 KB)

formulario_autorizacion_publicacion_obras.pdf (537.92 KB)

EdgarLeandro_JimenezJaimes_2024.pdf (2.03 MB)

Fecha

2024

Autores

Jiménez Jaimes, Edgar Leandro

Editor

Universidad EAFIT

Resumen

This thesis explores the implementation of natural language processing techniques and large language models (LLMs) to support discourse analysis tasks in the context of the "Tenemos que hablar Colombia" program. Techniques such as topic modeling, sentiment analysis, clustering, visualization, and the creation of a conversational assistant based on Retrieval Augmented Generation (RAG) have been addressed using advanced text modeling, vector embeddings, and prompt engineering approaches. A text classification model focused on predicting the label of the verbal indicator variable, assigned manually by the interviewer, is also presented, although this model is not directly applied to discourse analysis. This work adds to the studies of the " Tenemos que hablar Colombia " program, where other authors have contributed through computational linguistics analysis and machine learning techniques. Using advanced NLP techniques, we have sought to improve the interpretation of text data and its application in discourse analysis. The results have shown improvements in the accuracy of data classification and analysis through the techniques explored, providing a better understanding of citizen perceptions.

Descripción

En esta tesis se explora la implementación de técnicas de procesamiento de lenguaje natural y modelos grandes de lenguaje (LLMs por sus siglas en ingles) para apoyar tareas de análisis del discurso en el contexto del programa "Tenemos que Hablar Colombia". Se han abordado técnicas como el modelado de tópicos, análisis de sentimientos, clustering, visualización, y la creación de un asistente conversacional basado en Retrieval Augmented Generation (RAG, por sus siglas en inglés) utilizando aproximaciones avanzadas de modelado de texto vector embeddings e ingeniería de prompts. También se presenta un modelo de clasificación de texto enfocado en predecir la etiqueta de la variable de indicador verbal, asignada manualmente por el entrevistador, aunque este modelo no se aplica directamente al análisis de discurso. Este trabajo se suma a los estudios del programa "Tenemos que Hablar Colombia", donde otros autores han contribuido mediante análisis de lingüística computacional y técnicas de aprendizaje automático. Utilizando técnicas avanzadas de NLP, se ha buscado mejorar la interpretación de los datos de texto y su aplicación en el análisis de discurso. Los resultados han mostrado mejoras en la precisión de la clasificación y análisis de datos a través de las técnicas exploradas, proporcionando una mejor comprensión de las percepciones ciudadanas.