Publicación:
Detección automática de acordes empleando técnicas de caracterización de audio y machine learning

dc.contributor.advisorMartínez Vargas, Juan David
dc.contributor.advisorSepúlveda Cano, Lina María
dc.contributor.authorGil Urrego, Rafael Alejandro
dc.coverage.spatialMedellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degreeseng
dc.creator.degreeMagíster en Ciencias de Datos y Analíticaspa
dc.creator.emailragilu@eafit.edu.co
dc.date.accessioned2025-04-29T20:44:41Z
dc.date.available2025-04-29T20:44:41Z
dc.date.issued2025
dc.descriptionLa detección automática de acordes en pistas de audio es esencial para el desarrollo de diversas aplicaciones musicales, como la transcripción musical y la generación de partituras. Por esta razón, ha surgido un creciente interés en el campo de la ciencia de datos para explorar diversas estrategias que resuelvan esta necesidad. El enfoque principal estudiado en los últimos años se basa en la extracción de características de los archivos de audio que contienen la información de los acordes. La transformación de la señal de audio a través de diferentes herramientas de análisis frecuencial ha generado datos con una mayor capacidad para describir las componentes musicales presentes en la pista de audio procesada. El espectrograma de Mel y el Cromograma son algunos de los métodos empleados para estas tareas. Además, se han utilizado modelos analíticos supervisados clásicos, como las Máquinas de Vectores de Soporte (SVM), Random Forest o Redes Neuronales Convolucionales (CNN) en varios estudios. Estos modelos han demostrado un alto nivel de precisión al momento de realizar la identificación de los acordes, aunque en la mayoría de los casos se han visto limitados en términos de la cantidad de las clases de acordes existentes a estimar, ya que un aumento en la cantidad de clases a estimar puede confundir el sistema, permitiendo un máximo de 24. En este trabajo de grado, se desarrolló un sistema para la identificación automática de acordes musicales mediante la implementación de diferentes modelos analíticos clásicos y modernos. Para la extracción de características de audio, se emplearon los modelos pre-entrenados HuBERT y VGGish. Estas características fueron utilizadas como entrada para tres modelos clásicos, SVM, Random Forest y Gradient Boosting, con el fin de contrastar sus resultados con los obtenidos por un modelo moderno. La arquitectura HuBERT permite actuar como caracterizador así como clasificador por lo que fue la seleccionada como modelo moderno de contraste. Las pruebas se realizaron utilizando grabaciones de 48 clases diferentes de acordes, todas interpretadas en un piano digital, lo que proporcionó una base sólida para entrenar y evaluar el rendimiento del sistema propuesto. El estudio confirmó las observaciones de investigaciones previas: para obtener estimaciones precisas de las clases de acordes, es fundamental mejorar las técnicas de caracterización de las grabaciones de audio de entrada. Un problema recurrente identificado fue la falta de descripción detallada de los componentes musicales en las grabaciones, lo que afectó la capacidad de los modelos para ofrecer resultados óptimos. Nuestros hallazgos resaltan que una extracción precisa de características es clave para reducir el error de generalización de los modelos, permitiendo una mejor identificación de las clases de acordes tanto en enfoques supervisados clásicos como en arquitecturas modernas como HuBERT. Finalmente, se concluye que los modelos modernos, incluidos aquellos basados en Transformers, tienen una alta dependencia de la cantidad y diversidad de los datos. Para lograr una adaptabilidad efectiva, los datos de entrenamiento deben presentar suficientes variaciones dentro de una misma clase. Cuando los datos carecen de variabilidad intraclase, estos sistemas tienen dificultades para adaptarse a nuevas grabaciones ya que presentan ruido o distorsiones de fondo.
dc.description.abstractAutomatic chord detection in audio tracks is essential for developing various musical applications, such as music transcription and score generation. For this reason, there has been a growing interest in the field of data science to explore different strategies to address this need. The main approach studied in recent years is based on extracting features from audio files that contain chord information. Transforming the audio signal using different frequency analysis tools has generated data with a greater ability to describe the musical components present in the processed audio track. The Mel spectrogram and the Chromagram are some of the methods used for these tasks. Additionally, classical supervised analytical models such as Support Vector Machines (SVM), Random Forest, and Convolutional Neural Networks (CNN) have been employed in several studies. These models have demonstrated a high level of accuracy in chord identification. However, in most cases, they have been limited by the number of chord classes to estimate, as an increase in the number of classes can confuse the system, typically allowing a maximum of 24. In this thesis, a system for automatic chord identification was developed by implementing different classical and modern analytical models. For audio feature extraction, the pre-trained models HuBERT and VGGish were used. These extracted features were then fed into three classical models—SVM, Random Forest, and Gradient Boosting—to compare their results with those obtained by a modern model. The HuBERT architecture was chosen as the modern baseline model since it can function both as a feature extractor and a classifier. The experiments were conducted using recordings of 48 different chord classes, all played on a digital piano, providing a solid dataset for training and evaluating the proposed system’s performance. The study confirmed previous research findings: to obtain accurate chord class estimations, it is crucial to improve the characterization techniques of the input audio recordings. A recurring issue identified was the lack of a detailed description of the musical components in the recordings, which affected the models’ ability to deliver optimal results. Our findings highlight that precise feature extraction is key to reducing model generalization error, enabling better chord class identification in both classical supervised approaches and modern architectures such as HuBERT. Finally, it is concluded that modern models, including those based on Transformers, have a high dependency on the quantity and diversity of the data. To achieve effective adaptability, the training data must exhibit sufficient variations within the same class. When data lack intra-class variability, these systems struggle to adapt to new recordings, especially those with background noise or distortions.
dc.identifier.urihttps://hdl.handle.net/10784/35398
dc.language.isospaspa
dc.publisherUniversidad EAFITspa
dc.publisher.departmentEscuela de Ciencias Aplicadas e Ingeniería. Área Computación y Analíticaspa
dc.publisher.placeMedellín
dc.publisher.programMaestría en Ciencias de los Datos y Analíticaspa
dc.relation.urihttps://github.com/alejogil16/chord_detecting.git
dc.relation.uri'alejogil35/distilhubert-finetuned-chorddetection2
dc.rightsTodos los derechos reservadosspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccesseng
dc.rights.localAcceso abiertospa
dc.subjectDetección de acordes
dc.subjectTransformers
dc.subjectMachine Learning
dc.subject.keywordChord detecting
dc.subject.lembAPRENDIZAJE AUTOMÁTICO (INTELIGENCIA ARTIFICIAL)
dc.subject.lembCIENCIA DE LA INFORMACIÓN
dc.subject.lembCADENCIAS (MÚSICA)
dc.subject.lembACORDES
dc.titleDetección automática de acordes empleando técnicas de caracterización de audio y machine learning
dc.typemasterThesiseng
dc.typeinfo:eu-repo/semantics/masterThesiseng
dc.type.hasVersionacceptedVersioneng
dc.type.localTesis de Maestríaspa
dc.type.spaInforme
dspace.entity.typePublication

Archivos

Bloque original
Mostrando 1 - 3 de 3
No hay miniatura disponible
Nombre:
formulario_autorizacion_publicacion_obras.pdf
Tamaño:
722.43 KB
Formato:
Adobe Portable Document Format
Descripción:
Formulario de autorización de publicación de obras
No hay miniatura disponible
Nombre:
carta_aprobacion_trabajo_grado_eafit.pdf
Tamaño:
99.12 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta de aprobación de tesis de grado
No hay miniatura disponible
Nombre:
RafaelAlejandro_GilUrrego_2025.pdf
Tamaño:
1.4 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.5 KB
Formato:
Item-specific license agreed upon to submission
Descripción: