Análisis de discurso basado en modelos grandes de lenguaje
dc.contributor.advisor | Montoya Múnera, Edwin Nelson | |
dc.contributor.author | Jiménez Jaimes, Edgar Leandro | |
dc.coverage.spatial | Medellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degrees | eng |
dc.creator.degree | Magíster en Ciencias de Datos y Analítica | spa |
dc.creator.email | eljimenezj@eafit.edu.co | |
dc.date.accessioned | 2024-10-21T14:40:06Z | |
dc.date.available | 2024-10-21T14:40:06Z | |
dc.date.issued | 2024 | |
dc.description | En esta tesis se explora la implementación de técnicas de procesamiento de lenguaje natural y modelos grandes de lenguaje (LLMs por sus siglas en ingles) para apoyar tareas de análisis del discurso en el contexto del programa "Tenemos que Hablar Colombia". Se han abordado técnicas como el modelado de tópicos, análisis de sentimientos, clustering, visualización, y la creación de un asistente conversacional basado en Retrieval Augmented Generation (RAG, por sus siglas en inglés) utilizando aproximaciones avanzadas de modelado de texto vector embeddings e ingeniería de prompts. También se presenta un modelo de clasificación de texto enfocado en predecir la etiqueta de la variable de indicador verbal, asignada manualmente por el entrevistador, aunque este modelo no se aplica directamente al análisis de discurso. Este trabajo se suma a los estudios del programa "Tenemos que Hablar Colombia", donde otros autores han contribuido mediante análisis de lingüística computacional y técnicas de aprendizaje automático. Utilizando técnicas avanzadas de NLP, se ha buscado mejorar la interpretación de los datos de texto y su aplicación en el análisis de discurso. Los resultados han mostrado mejoras en la precisión de la clasificación y análisis de datos a través de las técnicas exploradas, proporcionando una mejor comprensión de las percepciones ciudadanas. | |
dc.description.abstract | This thesis explores the implementation of natural language processing techniques and large language models (LLMs) to support discourse analysis tasks in the context of the "Tenemos que hablar Colombia" program. Techniques such as topic modeling, sentiment analysis, clustering, visualization, and the creation of a conversational assistant based on Retrieval Augmented Generation (RAG) have been addressed using advanced text modeling, vector embeddings, and prompt engineering approaches. A text classification model focused on predicting the label of the verbal indicator variable, assigned manually by the interviewer, is also presented, although this model is not directly applied to discourse analysis. This work adds to the studies of the " Tenemos que hablar Colombia " program, where other authors have contributed through computational linguistics analysis and machine learning techniques. Using advanced NLP techniques, we have sought to improve the interpretation of text data and its application in discourse analysis. The results have shown improvements in the accuracy of data classification and analysis through the techniques explored, providing a better understanding of citizen perceptions. | |
dc.identifier.uri | https://hdl.handle.net/10784/34681 | |
dc.language.iso | spa | spa |
dc.publisher | Universidad EAFIT | spa |
dc.publisher.department | Escuela de Ciencias Aplicadas e Ingeniería. Área Computación y Analítica | spa |
dc.publisher.place | Medellín | |
dc.publisher.program | Maestría en Ciencias de los Datos y Analítica | spa |
dc.rights | Todos los derechos reservados | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | eng |
dc.rights.local | Acceso abierto | spa |
dc.subject | Análisis de discurso | |
dc.subject | Análisis de sentimientos | |
dc.subject | Asistente conversacional | |
dc.subject | Modelos grandes de lenguaje | |
dc.subject | Procesamiento de lenguaje natural | |
dc.subject | PCA | |
dc.subject | Visualización de datos | |
dc.subject.keyword | Discourse analysis | |
dc.subject.keyword | Sentiment analysis | |
dc.subject.keyword | Clustering | |
dc.subject.keyword | Prompt engineering | |
dc.subject.keyword | Retrieval-augmented generation | |
dc.subject.keyword | Conversational assistant | |
dc.subject.keyword | Large language models | |
dc.subject.keyword | Natural language processing | |
dc.subject.keyword | Vector embeddings | |
dc.subject.keyword | Data visualization | |
dc.subject.lemb | CIENCIA DE LA INFORMACIÓN | |
dc.subject.lemb | TECNOLOGÍA DE LA INFORMACIÓN | |
dc.subject.lemb | LENGUAJES NATURALES | |
dc.title | Análisis de discurso basado en modelos grandes de lenguaje | |
dc.type | masterThesis | eng |
dc.type | info:eu-repo/semantics/masterThesis | eng |
dc.type.hasVersion | acceptedVersion | eng |
dc.type.local | Tesis de Maestría | spa |
dc.type.spa | Monografía |
Archivos
Bloque original
1 - 3 de 3
No hay miniatura disponible
- Nombre:
- carta_aprobacion_trabajo_grado_eafit.pdf
- Tamaño:
- 72.96 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Carta de aprobación de tesis de grado
No hay miniatura disponible
- Nombre:
- formulario_autorizacion_publicacion_obras.pdf
- Tamaño:
- 537.92 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Formulario de autorización de publicación de obras
No hay miniatura disponible
- Nombre:
- EdgarLeandro_JimenezJaimes_2024.pdf
- Tamaño:
- 2.03 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Trabajo de grado
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 2.5 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: