Análisis de discurso basado en modelos grandes de lenguaje

dc.contributor.advisorMontoya Múnera, Edwin Nelson
dc.contributor.authorJiménez Jaimes, Edgar Leandro
dc.coverage.spatialMedellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degreeseng
dc.creator.degreeMagíster en Ciencias de Datos y Analíticaspa
dc.creator.emaileljimenezj@eafit.edu.co
dc.date.accessioned2024-10-21T14:40:06Z
dc.date.available2024-10-21T14:40:06Z
dc.date.issued2024
dc.descriptionEn esta tesis se explora la implementación de técnicas de procesamiento de lenguaje natural y modelos grandes de lenguaje (LLMs por sus siglas en ingles) para apoyar tareas de análisis del discurso en el contexto del programa "Tenemos que Hablar Colombia". Se han abordado técnicas como el modelado de tópicos, análisis de sentimientos, clustering, visualización, y la creación de un asistente conversacional basado en Retrieval Augmented Generation (RAG, por sus siglas en inglés) utilizando aproximaciones avanzadas de modelado de texto vector embeddings e ingeniería de prompts. También se presenta un modelo de clasificación de texto enfocado en predecir la etiqueta de la variable de indicador verbal, asignada manualmente por el entrevistador, aunque este modelo no se aplica directamente al análisis de discurso. Este trabajo se suma a los estudios del programa "Tenemos que Hablar Colombia", donde otros autores han contribuido mediante análisis de lingüística computacional y técnicas de aprendizaje automático. Utilizando técnicas avanzadas de NLP, se ha buscado mejorar la interpretación de los datos de texto y su aplicación en el análisis de discurso. Los resultados han mostrado mejoras en la precisión de la clasificación y análisis de datos a través de las técnicas exploradas, proporcionando una mejor comprensión de las percepciones ciudadanas.
dc.description.abstractThis thesis explores the implementation of natural language processing techniques and large language models (LLMs) to support discourse analysis tasks in the context of the "Tenemos que hablar Colombia" program. Techniques such as topic modeling, sentiment analysis, clustering, visualization, and the creation of a conversational assistant based on Retrieval Augmented Generation (RAG) have been addressed using advanced text modeling, vector embeddings, and prompt engineering approaches. A text classification model focused on predicting the label of the verbal indicator variable, assigned manually by the interviewer, is also presented, although this model is not directly applied to discourse analysis. This work adds to the studies of the " Tenemos que hablar Colombia " program, where other authors have contributed through computational linguistics analysis and machine learning techniques. Using advanced NLP techniques, we have sought to improve the interpretation of text data and its application in discourse analysis. The results have shown improvements in the accuracy of data classification and analysis through the techniques explored, providing a better understanding of citizen perceptions.
dc.identifier.urihttps://hdl.handle.net/10784/34681
dc.language.isospaspa
dc.publisherUniversidad EAFITspa
dc.publisher.departmentEscuela de Ciencias Aplicadas e Ingeniería. Área Computación y Analíticaspa
dc.publisher.placeMedellín
dc.publisher.programMaestría en Ciencias de los Datos y Analíticaspa
dc.rightsTodos los derechos reservadosspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccesseng
dc.rights.localAcceso abiertospa
dc.subjectAnálisis de discurso
dc.subjectAnálisis de sentimientos
dc.subjectAsistente conversacional
dc.subjectModelos grandes de lenguaje
dc.subjectProcesamiento de lenguaje natural
dc.subjectPCA
dc.subjectVisualización de datos
dc.subject.keywordDiscourse analysis
dc.subject.keywordSentiment analysis
dc.subject.keywordClustering
dc.subject.keywordPrompt engineering
dc.subject.keywordRetrieval-augmented generation
dc.subject.keywordConversational assistant
dc.subject.keywordLarge language models
dc.subject.keywordNatural language processing
dc.subject.keywordVector embeddings
dc.subject.keywordData visualization
dc.subject.lembCIENCIA DE LA INFORMACIÓN
dc.subject.lembTECNOLOGÍA DE LA INFORMACIÓN
dc.subject.lembLENGUAJES NATURALES
dc.titleAnálisis de discurso basado en modelos grandes de lenguaje
dc.typemasterThesiseng
dc.typeinfo:eu-repo/semantics/masterThesiseng
dc.type.hasVersionacceptedVersioneng
dc.type.localTesis de Maestríaspa
dc.type.spaMonografía

Archivos

Bloque original
Mostrando 1 - 3 de 3
No hay miniatura disponible
Nombre:
carta_aprobacion_trabajo_grado_eafit.pdf
Tamaño:
72.96 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta de aprobación de tesis de grado
No hay miniatura disponible
Nombre:
formulario_autorizacion_publicacion_obras.pdf
Tamaño:
537.92 KB
Formato:
Adobe Portable Document Format
Descripción:
Formulario de autorización de publicación de obras
No hay miniatura disponible
Nombre:
EdgarLeandro_JimenezJaimes_2024.pdf
Tamaño:
2.03 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.5 KB
Formato:
Item-specific license agreed upon to submission
Descripción: