Análisis comparativo de los métodos REPET+ y UNet para la separación de la voz cantada en una pista musical

Ramon Zuta, Jorge Luis

Ver/

Tesis
(application/pdf: 532.1Kb)

Autorización
(application/pdf: 195.0Kb)

Reporte de similitud
(application/pdf: 4.788Mb)

Fecha

2023

Resumen

Music source separation is the task of isolating the musical phrases played by different instruments recorded individually and arranged together to form a song. Nowadays, several methods have been developed to cover the separation of music sources, which can be classified into supervised and unsupervised learning, however, no research has been developed in which the effectiveness of using different methods together are analyzed , that's the reason the present work seeks to measure the results of the use of two methods, REPET + (unsupervised) and UNet (supervised), jointly and in isolation to separate the music waves produced by a singer and the waves from the instruments. The results show an overall score (SDR) of the methods for vocal separation for the UNet network was 5.38 dB, REPET+ -4.3 dB, -2.55 dB for REPET+ & UNet, -0.38 dB for UNet & REPET+, -6.16 dB for REPET+ & REPET+ and 5.17 dB for UNet & UNet, demonstrating the superiority of the UNet network for the separation of vocal waves compared to the REPET+ method. In addition, the use of the methods together shows a slight improvement in certain evaluation metrics, however, considering all the metrics (SDR, SIR and SAR), it is evident that this leads to a loss of information that results in a low overall score of the solution.

La separación de fuentes musicales es la tarea de aislar las frases musicales ejecutadas por diferentes instrumentos grabados individualmente y dispuestos juntos para formar una canción. A la actualidad se han desarrollados diversos métodos para abarcar la separación de fuentes musicales, los cuales se pueden clasificar en métodos supervisados y no supervisados; sin embargo, no se ha desarrollado una investigación en la cual se analice la efectividad de usar diferentes métodos en conjunto. Por este motivo, el presente trabajo busca medir los resultados de la utilización de dos métodos, REPET+ (no supervisado) y UNet (supervisado), de manera conjunta y aislada para separar las ondas musicales producidas por un cantante y las ondas provenientes de los instrumentos. Los resultados muestran un puntaje general (SDR) de los métodos para la separación vocal para la red UNet fue de 5.38 dB, REPET+ de -4.3 dB, -2.55 dB para REPET+ & UNet, y, -0.38 dB para UNet & REPET+, -6.16 dB para REPET+ & REPET+ y 5.17 dB para UNet & UNet, demostrando la superioridad de la red UNet para la separación de ondas vocales frente al método REPET+. Además, la utilización de los métodos en forma conjunta muestra una leve mejoría en ciertas métricas de evaluación; sin embargo, tomando en cuenta todas las métricas (SDR, SIR y SAR), se pone en evidencia que esto conlleva a una pérdida de información que recae en un bajo puntaje general de la solución.

URI

https://hdl.handle.net/20.500.12724/17755

Cómo citar

Ramon Zuta, J. L. (2023). Análisis comparativo de los métodos REPET+ y UNet para la separación de la voz cantada en una pista musical [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/17755

Editor

Universidad de Lima

Temas

Análisis musical
Procesamiento de datos
Análisis de Fourier
Análisis matemático
Sistemas de procesamiento del habla
Musical analysis
Electronic data processing
Fourier analysis
Mathematical analysis
Speech processing systems

Coleccion(es)

Tesis [68]

El ítem tiene asociados los siguientes ficheros de licencia:

Creative Commons

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess