Aplicación de técnicas de clusterización para la clasificación de música dance electrónica

Resumen

Audio processing is one of the essential tasks for a data scientist, and audio analysis has applications in a diverse range of fields, such as medicine, telecommunications, improving sound quality in music production, and even military applications (filtering suspicious or terrorist audio). This project aims to use hard clustering techniques (such as k-means or k-nearest neighbor) and soft clustering techniques (such as fuzzy clustering) to classify input songs using different metrics. The classification methods will be used to segment previously processed input audios and obtain a sample of representative segments of the songs, determining their similarity with other songs of the same genre. Another technique that has proven effective for audio classification is convolutional neural networks (CNNs), which have been used in a wide range of fields. In the music field, they have been used to classify violin bowing techniques [1] and even detect potential heart problems using heartbeat sounds [2]. In this project, we will use this technique up to the point of feature extraction, and then use classical classification techniques to determine which group a section of a song belongs to.

Descripción

El procesamiento de audio es una de las tareas esenciales para un científico de datos, el análisis de audio tiene aplicación en áreas muy diversas de conocimiento, como lo son: medicina, telecomunicaciones, mejorar la calidad de sonido en producciones musicales, inclusive aplicaciones militares (filtrar audio sospechoso o terrorista). Con este proyecto se pretende utilizar técnicas de agrupamiento hard (K-Means o KNN) y soft (fuzzy clustering) para clasificar canciones de entrada, utilizando diferentes métricas. Se utilizarán los métodos de clasificación para segmentar audios de entrada previamente procesados y de esta manera obtener una muestra de segmentos representativos de las canciones y de esta manera determinar su similaridad con otras canciones del mismo género. Otra técnica que ha probado ser efectiva para la clasificación de audio son las redes neuronales convolucionales (CNN) y se han utilizado para un gran campo de acción; en el ámbito musical se ha utilizado para clasificar técnicas de golpeo de arco en violín [1] hasta la detección de posibles problemas cardiacos utilizando los sonidos de los latidos del corazón [2]. En este proyecto utilizaremos esta técnica hasta el punto de la extracción de características y luego utilizaremos técnicas clásicas de clasificación para determinar a qué grupo pertenece una sección de canción.

Palabras clave

Procesamiento de audio, Redes neuronales convolucionales, Métricas, Espectrograma

Citación