Home » Departamento de Procesamiento de Señales » Defensa Tesis Maestría : “Identificación automática de cantante en música polifónica”

Defensa Tesis Maestría : “Identificación automática de cantante en música polifónica”

Jueves 14 de junio 14hs, Salón Rojo (piso 7, salón 703) – Facultad de Ingeniería, Julio Herrera y Reissig 565

Tenemos el agrado de invitarlos a la defensa de tesis de maestría de Pablo Massaferro :  “Identificación automática de cantante en música polifónica”

Tutores : Pablo Cancela y Martín Rocamora

Tribunal : Mauricio Delbracio, Álvaro Gómez y Luiz W. P. Biscainho (UFRJ)

Saludos,

Martín Rocamora

Resumen :

La aplicación de la tecnología digital a la producción y distribución de
música ha dado lugar a una verdadera revolución, facilitando el acceso de
los artistas a los estudios de grabación, y generando un crecimiento
exponencial de la cantidad de registros fonográficos. Esto ha generado que
los sistemas de clasificación y sugerencia, basados en herramientas de
procesamiento de señales y aprendizaje automático, se hayan transformado en
puntos clave en la gestión de la oferta musical. En este contexto, es de
especial relevancia automatizar algunas tareas, como la identificación del
cantante a partir de un archivo de audio.

En este trabajo se exploran las técnicas existentes de identificación de
cantantes en archivos de audio de música polifónica. Varios trabajos
abordan el problema sin realizar separación de fuentes, debido a las
dificultades que esto conlleva, lo que genera que los algoritmos de
clasificación aprendan a reconocer al cantante junto con su acompañamiento
musical.

La selección de la instrumentación, efectos de audio, mezcla y masterizado
juegan un rol importante en el sonido final de las canciones que integran
un álbum. En trabajos previos, los efectos vinculados a estos aspectos de
la producción fonográfica han sido poco explorados. Para mostrar estos
efectos y poder cuantificarlos, en este trabajo se crea la base de datos
VoicesUy, en la cual canciones populares rioplatenses son cantadas por
artistas profesionales y grabadas en multipista. Los cantantes interpretan
las mismas canciones de forma de poder realizar identificación de voces
entre archivos donde la única diferencia es la voz. Esta base de datos
permite evaluar tanto algoritmos de separación de fuentes como de
clasificación de voces. El hecho de que los cantantes que participan en la
grabación de la base tengan su propia discografía, permite además evaluar
la incidencia de los efectos de diferentes etapas de la producción musical
en la identificación de cantante. VoicesUy es la primer base de datos de
música popular en castellano para identificación de cantante y separación
de fuentes.

Se presentan experimentos que muestran que, si bien el acompañamiento
musical dificulta la identificación de cantante, un artista interpretando
sus composiciones junto con su banda es más fácil de identificar que
interpretando versiones. Denominamos a este comportamiento “efecto banda”.
Se muestra cómo mejora la clasificación del intérprete al utilizar técnicas
de separación de fuentes. Se prueba una técnica de enmascaramiento sobre
una representación tiempo-frecuencia no tradicional y se comparan los
resultados utilizado representaciones clásicas como el espectrograma. Para
aplicar estas técnicas se utiliza la información de la frecuencia
fundamental de la voz. Los resultados de identificación de cantante
obtenidos son comparables con otros trabajos de referencia. La
clasificación de voces sobre VoicesUy, aplicando separación de fuentes,
alcanza un acierto del 95.1 %.