Análisis de discurso basado en modelos grandes de lenguaje

Jiménez Jaimes, Edgar Leandro

Publicación:
Análisis de discurso basado en modelos grandes de lenguaje

dc.contributor.advisor	Montoya Múnera, Edwin Nelson
dc.contributor.author	Jiménez Jaimes, Edgar Leandro
dc.coverage.spatial	Medellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degrees	eng
dc.creator.email	eljimenezj@eafit.edu.co
dc.date.accessioned	2024-10-21T14:40:06Z
dc.date.available	2024-10-21T14:40:06Z
dc.date.issued	2024
dc.description	En esta tesis se explora la implementación de técnicas de procesamiento de lenguaje natural y modelos grandes de lenguaje (LLMs por sus siglas en ingles) para apoyar tareas de análisis del discurso en el contexto del programa "Tenemos que Hablar Colombia". Se han abordado técnicas como el modelado de tópicos, análisis de sentimientos, clustering, visualización, y la creación de un asistente conversacional basado en Retrieval Augmented Generation (RAG, por sus siglas en inglés) utilizando aproximaciones avanzadas de modelado de texto vector embeddings e ingeniería de prompts. También se presenta un modelo de clasificación de texto enfocado en predecir la etiqueta de la variable de indicador verbal, asignada manualmente por el entrevistador, aunque este modelo no se aplica directamente al análisis de discurso. Este trabajo se suma a los estudios del programa "Tenemos que Hablar Colombia", donde otros autores han contribuido mediante análisis de lingüística computacional y técnicas de aprendizaje automático. Utilizando técnicas avanzadas de NLP, se ha buscado mejorar la interpretación de los datos de texto y su aplicación en el análisis de discurso. Los resultados han mostrado mejoras en la precisión de la clasificación y análisis de datos a través de las técnicas exploradas, proporcionando una mejor comprensión de las percepciones ciudadanas.
dc.description.abstract	This thesis explores the implementation of natural language processing techniques and large language models (LLMs) to support discourse analysis tasks in the context of the "Tenemos que hablar Colombia" program. Techniques such as topic modeling, sentiment analysis, clustering, visualization, and the creation of a conversational assistant based on Retrieval Augmented Generation (RAG) have been addressed using advanced text modeling, vector embeddings, and prompt engineering approaches. A text classification model focused on predicting the label of the verbal indicator variable, assigned manually by the interviewer, is also presented, although this model is not directly applied to discourse analysis. This work adds to the studies of the " Tenemos que hablar Colombia " program, where other authors have contributed through computational linguistics analysis and machine learning techniques. Using advanced NLP techniques, we have sought to improve the interpretation of text data and its application in discourse analysis. The results have shown improvements in the accuracy of data classification and analysis through the techniques explored, providing a better understanding of citizen perceptions.
dc.description.degreelevel	Maestría	spa
dc.description.degreename	Magíster en Ciencias de Datos y Analítica	spa
dc.format.mimetype	application/pdf
dc.identifier.instname	instname:Universidad EAFIT
dc.identifier.reponame	reponame:Repositorio Institucional Universidad EAFIT
dc.identifier.repourl	repourl:https://repository.eafit.edu.co
dc.identifier.uri	https://hdl.handle.net/10784/34681
dc.language.iso	spa
dc.publisher	Universidad EAFIT	spa
dc.publisher.department	Área Computación y Analítica	spa
dc.publisher.faculty	Escuela de Ciencias Aplicadas e Ingeniería	spa
dc.publisher.place	Medellín	spa
dc.publisher.program	Maestría en Ciencias de los Datos y Analítica	spa
dc.rights	Todos los derechos reservados	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.local	Acceso abierto
dc.rights.local		spa
dc.subject	Análisis de discurso
dc.subject	Análisis de sentimientos
dc.subject	Asistente conversacional
dc.subject	Modelos grandes de lenguaje
dc.subject	Procesamiento de lenguaje natural
dc.subject	PCA
dc.subject	Visualización de datos
dc.subject.keyword	Discourse analysis
dc.subject.keyword	Sentiment analysis
dc.subject.keyword	Clustering
dc.subject.keyword	Prompt engineering
dc.subject.keyword	Retrieval-augmented generation
dc.subject.keyword	Conversational assistant
dc.subject.keyword	Large language models
dc.subject.keyword	Natural language processing
dc.subject.keyword	Vector embeddings
dc.subject.keyword	Data visualization
dc.subject.lemb	CIENCIA DE LA INFORMACIÓN
dc.subject.lemb	TECNOLOGÍA DE LA INFORMACIÓN
dc.subject.lemb	LENGUAJES NATURALES
dc.title	Análisis de discurso basado en modelos grandes de lenguaje
dc.type	info:eu-repo/semantics/masterThesis
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.coarversion	http://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.local	Tesis de Maestría	spa
dc.type.redcol	http://purl.org/redcol/resource_type/TM
dc.type.spa	Monografía
dc.type.version	info:eu-repo/semantics/acceptedVersion
dspace.entity.type	Publication