Publicación:
Ajuste fino de un modelo LLM para realizar reportes resumidos de expertos en trading, con integración de datos desde redes sociales

dc.contributor.advisorMartínez Vargas, Juan David
dc.contributor.authorRestrepo Acevedo, Andrés Felipe
dc.coverage.spatialMedellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degrees
dc.creator.emailafrestrepa@eafit.edu.co
dc.date.accessioned2025-09-02T13:36:16Z
dc.date.available2025-09-02T13:36:16Z
dc.date.issued2025
dc.descriptionEl mercado financiero contemporáneo se caracteriza por su alta complejidad y el volumen masivo de datos estructurados y no estructurados que genera diariamente, lo que representa un desafío significativo para los inversores individuales en cuanto al análisis y la toma de decisiones informadas. Este proyecto propone el ajuste fino de un modelo de lenguaje pequeño (SLM, por sus siglas en inglés) integrado en una herramienta capaz de generar reportes de análisis financiero similares a los elaborados por expertos. Para la prueba de concepto (PoC), se emplean transcripciones de videos de análisis financiero publicados por expertos en sus canales de YouTube. El modelo SLM es ajustado mediante técnicas de fine-tuning con instrucciones específicas y la incorporación de la técnica LoRa (Low-Rank Adapters), con el objetivo de extraer y resumir información clave relevante para los inversores individuales. El propósito principal de esta herramienta es asistir a los inversores individuales mediante la generación de reportes eficientes y accesibles, facilitando el acceso a información valiosa en lenguaje natural y mejorando su capacidad para tomar decisiones fundamentadas a partir de datos no estructurados, todo ello con una inversión mínima de tiempo y recursos. Los resultados experimentales demuestran la viabilidad de utilizar Modelos de Lenguaje Pequeños (SLMs) ajustados para la generación automatizada de reportes financieros de calidad. Específicamente, el modelo finetune qlora unsloth llama 3.1 8B Instruct bnb 4bit v2 Q8 0 seleccionado alcanzó una puntuación promedio de 5,67 sobre 10 en la evaluación realizada por un LLM evaluador, con una distancia de coseno promedio de 0,159 respecto a los resúmenes de referencia generados por el modelo preentrenado fundacional GPT-4.1. Esta mejora representa un incremento del 97,5% en el rendimiento en comparación con el modelo base Llama 3.1 8B Instruct sin ajuste fino. Cualitativamente, el modelo exhibe una alta fidelidad y coherencia en la extracción y síntesis de información clave en contextos de longitud moderada, aunque presenta desafíos en la interpretación temática para transcripciones considerablemente extensas. Adicionalmente, la implementación de esta herramienta proyecta un ahorro anual estimado de 560 horas para inversores individuales, junto con una reducción anual de costos de API estimada entre 7,52 y 25 dólares para los canales analizados en la prueba de concepto.
dc.description.abstractThe contemporary financial market is characterized by its high complexity and the massive volume of structured and unstructured data generated daily, posing significant challenges for individual investors in terms of analysis and informed decision making. This project proposes the fine-tuning of a Small Language Model (SLM) integrated into a tool capable of generating financial analysis reports similar to those produced by experts. For the proof of concept (PoC), transcripts from financial analysis videos published by experts on their YouTube channels are utilized. The SLM is fine-tuned using instruction-based techniques and the incorporation of the LoRa(Low-Rank Adapters) method, with the aim of extracting and summarizing key information relevant to individual investors. The main objective of this tool is to assist individual investors by generating efficient and accessible reports, facilitating access to valuable information in natural language, and enhancing their ability to make data-driven decisions from unstructured data, all with minimal investment of time and resources. Experimental results demonstrate the viability of using fine-tuned Small Language Models (SLMs) for the generation of high-quality financial reports. Specifically, the selected model, finetune qlora unsloth llama 3.1 8B Instruct bnb 4bit v2 Q8 0, achieved an average score of 5.67 out of 10 in the evaluation conducted by a judge LLM, with an average cosine distance of 0.159 compared to the reference summaries generated by the foundational pretrained model GPT-4.1. This improvement represents a 97.5% increase in performance compared to the same base model, Llama 3.1 8B Instruct, without fine-tuning. Qualitatively, the model exhibits high fidelity and coherence in the extraction and synthesis of key information in moderately long contexts, although it faces challenges in thematic interpretation when dealing with considerably lengthy transcripts. Additionally, implementation of this tool is projected to save 560 hours annually for individual investors, along with an estimated annual reduction in API costs ranging from 7.52 to 25 for the channels analyzed in the proof of concept.
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Ciencias de Datos y Analíticaspa
dc.format.mimetypeapplication/pdf
dc.identifier.instnameinstname:Universidad EAFIT
dc.identifier.reponamereponame:Repositorio Institucional Universidad EAFIT
dc.identifier.repourlrepourl:https://repository.eafit.edu.co
dc.identifier.urihttps://hdl.handle.net/10784/36684
dc.language.isospa
dc.publisherUniversidad EAFITspa
dc.publisher.departmentÁrea Computación y Analíticaspa
dc.publisher.facultyEscuela de Ciencias Aplicadas e Ingenieríaspa
dc.publisher.placeMedellín
dc.publisher.programMaestría en Ciencias de los Datos y Analíticaspa
dc.rightsTodos los derechos reservadosspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.localAcceso abierto
dc.subjectModelos de lenguaje grandes (LLM)
dc.subjectDestilación de conocimiento
dc.subjectAjuste fino
dc.subjectLoRa (Low-Rank Adaptation)
dc.subjectEvaluación con LLM
dc.subjectYouTube (Sitio web) — Uso en análisis financiero
dc.subject.keywordLarge Language Models (LLM)
dc.subject.keywordKnowledge Distillation
dc.subject.keywordFine-tuning
dc.subject.keywordLoRa (Low-Rank Adaptation)
dc.subject.keywordLLM as Evaluator
dc.subject.lembAPRENDIZAJE AUTOMÁTICO (INTELIGENCIA ARTIFICIAL)
dc.subject.lembINVERSIONES - TOMA DE DECISIONES
dc.subject.lembANÁLISIS FINANCIERO - AUTOMATIZACIÓN
dc.subject.lembMERCADO FINANCIERO - PROCESAMIENTO DE DATOS
dc.subject.lembLENGUAJES DE PROGRAMACIÓN (COMPUTADORES)
dc.titleAjuste fino de un modelo LLM para realizar reportes resumidos de expertos en trading, con integración de datos desde redes sociales
dc.typeinfo:eu-repo/semantics/masterThesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.localTesis de Maestríaspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TM
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dspace.entity.typePublication

Archivos

Bloque original
Mostrando 1 - 3 de 3
No hay miniatura disponible
Nombre:
andres_felipe_restrepo_acevedo_2025.pdf
Tamaño:
3.61 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
No hay miniatura disponible
Nombre:
formulario_autorizacion_publicacion_obras_andres_restrepo.pdf
Tamaño:
436.07 KB
Formato:
Adobe Portable Document Format
Descripción:
Formulario de autorización de publicación de obras
No hay miniatura disponible
Nombre:
carta_aprobacion_trabajo_grado_eafit_andres_felipe_restrepo_acevedo.pdf
Tamaño:
159.83 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta de aprobación de tesis de grado
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.5 KB
Formato:
Item-specific license agreed upon to submission
Descripción: