Publicación: Ajuste fino de un modelo LLM para realizar reportes resumidos de expertos en trading, con integración de datos desde redes sociales
dc.contributor.advisor | Martínez Vargas, Juan David | |
dc.contributor.author | Restrepo Acevedo, Andrés Felipe | |
dc.coverage.spatial | Medellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degrees | |
dc.creator.email | afrestrepa@eafit.edu.co | |
dc.date.accessioned | 2025-09-02T13:36:16Z | |
dc.date.available | 2025-09-02T13:36:16Z | |
dc.date.issued | 2025 | |
dc.description | El mercado financiero contemporáneo se caracteriza por su alta complejidad y el volumen masivo de datos estructurados y no estructurados que genera diariamente, lo que representa un desafío significativo para los inversores individuales en cuanto al análisis y la toma de decisiones informadas. Este proyecto propone el ajuste fino de un modelo de lenguaje pequeño (SLM, por sus siglas en inglés) integrado en una herramienta capaz de generar reportes de análisis financiero similares a los elaborados por expertos. Para la prueba de concepto (PoC), se emplean transcripciones de videos de análisis financiero publicados por expertos en sus canales de YouTube. El modelo SLM es ajustado mediante técnicas de fine-tuning con instrucciones específicas y la incorporación de la técnica LoRa (Low-Rank Adapters), con el objetivo de extraer y resumir información clave relevante para los inversores individuales. El propósito principal de esta herramienta es asistir a los inversores individuales mediante la generación de reportes eficientes y accesibles, facilitando el acceso a información valiosa en lenguaje natural y mejorando su capacidad para tomar decisiones fundamentadas a partir de datos no estructurados, todo ello con una inversión mínima de tiempo y recursos. Los resultados experimentales demuestran la viabilidad de utilizar Modelos de Lenguaje Pequeños (SLMs) ajustados para la generación automatizada de reportes financieros de calidad. Específicamente, el modelo finetune qlora unsloth llama 3.1 8B Instruct bnb 4bit v2 Q8 0 seleccionado alcanzó una puntuación promedio de 5,67 sobre 10 en la evaluación realizada por un LLM evaluador, con una distancia de coseno promedio de 0,159 respecto a los resúmenes de referencia generados por el modelo preentrenado fundacional GPT-4.1. Esta mejora representa un incremento del 97,5% en el rendimiento en comparación con el modelo base Llama 3.1 8B Instruct sin ajuste fino. Cualitativamente, el modelo exhibe una alta fidelidad y coherencia en la extracción y síntesis de información clave en contextos de longitud moderada, aunque presenta desafíos en la interpretación temática para transcripciones considerablemente extensas. Adicionalmente, la implementación de esta herramienta proyecta un ahorro anual estimado de 560 horas para inversores individuales, junto con una reducción anual de costos de API estimada entre 7,52 y 25 dólares para los canales analizados en la prueba de concepto. | |
dc.description.abstract | The contemporary financial market is characterized by its high complexity and the massive volume of structured and unstructured data generated daily, posing significant challenges for individual investors in terms of analysis and informed decision making. This project proposes the fine-tuning of a Small Language Model (SLM) integrated into a tool capable of generating financial analysis reports similar to those produced by experts. For the proof of concept (PoC), transcripts from financial analysis videos published by experts on their YouTube channels are utilized. The SLM is fine-tuned using instruction-based techniques and the incorporation of the LoRa(Low-Rank Adapters) method, with the aim of extracting and summarizing key information relevant to individual investors. The main objective of this tool is to assist individual investors by generating efficient and accessible reports, facilitating access to valuable information in natural language, and enhancing their ability to make data-driven decisions from unstructured data, all with minimal investment of time and resources. Experimental results demonstrate the viability of using fine-tuned Small Language Models (SLMs) for the generation of high-quality financial reports. Specifically, the selected model, finetune qlora unsloth llama 3.1 8B Instruct bnb 4bit v2 Q8 0, achieved an average score of 5.67 out of 10 in the evaluation conducted by a judge LLM, with an average cosine distance of 0.159 compared to the reference summaries generated by the foundational pretrained model GPT-4.1. This improvement represents a 97.5% increase in performance compared to the same base model, Llama 3.1 8B Instruct, without fine-tuning. Qualitatively, the model exhibits high fidelity and coherence in the extraction and synthesis of key information in moderately long contexts, although it faces challenges in thematic interpretation when dealing with considerably lengthy transcripts. Additionally, implementation of this tool is projected to save 560 hours annually for individual investors, along with an estimated annual reduction in API costs ranging from 7.52 to 25 for the channels analyzed in the proof of concept. | |
dc.description.degreelevel | Maestría | spa |
dc.description.degreename | Magíster en Ciencias de Datos y Analítica | spa |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | instname:Universidad EAFIT | |
dc.identifier.reponame | reponame:Repositorio Institucional Universidad EAFIT | |
dc.identifier.repourl | repourl:https://repository.eafit.edu.co | |
dc.identifier.uri | https://hdl.handle.net/10784/36684 | |
dc.language.iso | spa | |
dc.publisher | Universidad EAFIT | spa |
dc.publisher.department | Área Computación y Analítica | spa |
dc.publisher.faculty | Escuela de Ciencias Aplicadas e Ingeniería | spa |
dc.publisher.place | Medellín | |
dc.publisher.program | Maestría en Ciencias de los Datos y Analítica | spa |
dc.rights | Todos los derechos reservados | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.local | Acceso abierto | |
dc.subject | Modelos de lenguaje grandes (LLM) | |
dc.subject | Destilación de conocimiento | |
dc.subject | Ajuste fino | |
dc.subject | LoRa (Low-Rank Adaptation) | |
dc.subject | Evaluación con LLM | |
dc.subject | YouTube (Sitio web) — Uso en análisis financiero | |
dc.subject.keyword | Large Language Models (LLM) | |
dc.subject.keyword | Knowledge Distillation | |
dc.subject.keyword | Fine-tuning | |
dc.subject.keyword | LoRa (Low-Rank Adaptation) | |
dc.subject.keyword | LLM as Evaluator | |
dc.subject.lemb | APRENDIZAJE AUTOMÁTICO (INTELIGENCIA ARTIFICIAL) | |
dc.subject.lemb | INVERSIONES - TOMA DE DECISIONES | |
dc.subject.lemb | ANÁLISIS FINANCIERO - AUTOMATIZACIÓN | |
dc.subject.lemb | MERCADO FINANCIERO - PROCESAMIENTO DE DATOS | |
dc.subject.lemb | LENGUAJES DE PROGRAMACIÓN (COMPUTADORES) | |
dc.title | Ajuste fino de un modelo LLM para realizar reportes resumidos de expertos en trading, con integración de datos desde redes sociales | |
dc.type | info:eu-repo/semantics/masterThesis | |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | |
dc.type.local | Tesis de Maestría | spa |
dc.type.redcol | http://purl.org/redcol/resource_type/TM | |
dc.type.version | info:eu-repo/semantics/acceptedVersion | |
dspace.entity.type | Publication |
Archivos
Bloque original
1 - 3 de 3
No hay miniatura disponible
- Nombre:
- andres_felipe_restrepo_acevedo_2025.pdf
- Tamaño:
- 3.61 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Trabajo de grado
No hay miniatura disponible
- Nombre:
- formulario_autorizacion_publicacion_obras_andres_restrepo.pdf
- Tamaño:
- 436.07 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Formulario de autorización de publicación de obras
No hay miniatura disponible
- Nombre:
- carta_aprobacion_trabajo_grado_eafit_andres_felipe_restrepo_acevedo.pdf
- Tamaño:
- 159.83 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Carta de aprobación de tesis de grado
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 2.5 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: