Proyectos de investigación

Análisis del contenido de señales de audio

Se realizó un proyecto de investigación financiado por el PDT sobre análisis automático del contenido de grabaciones de audio.

El objetivo general del proyecto es investigar y desarrollar herramientas de extracción del contenido melódico de grabaciones de música para obtener una representación simbólica de la pieza. Se busca generar conocimiento en relación a transcripción automática de música y mecanismos de percepción de la música.

2007-2008
Participantes: J. Pechiar, L. Jure, A. Pardo, F. Lecumberry, E. López, M. Rocamora, I. Irigaray, M. Fiori

Búsqueda de Audio por Contenido

Se desarrolló un proyecto financiado por la CSIC sobre búsqueda de audio por contendio.

Este proyecto busca estudiar y desarrollar algoritmos y sistemas que permitan realizar búsquedas de audio según su contenido. Una de las aplicaciones más interesantes de estos sistemas es la búsqueda de información de audio en bases de datos, usando como consulta una "versión" cantada, "tarareada" o silbada del material buscado. En otros casos se puede usar un trozo del material buscado como ejemplo en la consulta. Esto implica estudiar y desarrollar algoritmos que mediante el análisis del audio permitan extraer la melodía significativa del mismo, su representación simbólica y una forma de comparar estas últimas. Este problema está fuertemente vinculado a la transcripción automática de música (Material).

2005-2006
Participantes: A. Pardo, F. Lecumberry, E. López, M. Rocamora

Proyectos de fin de carrera

Los siguientes proyectos representan líneas de trabajo del grupo dentro de las cuales se pueden realizar proyectos de fin de carrera. Se incluyen más abajo algunas propuestas específicas, sin embargo estamos abiertos a otros proyectos en el área, e incentivamos a los estudiantes a formular sus propias propuestas.

Búsqueda de música por melodía cantada

El problema de búsqueda de música por tarareo consiste en construir un sistema capaz de simular el proceso cognitivo de identificar una pieza musical a partir de unas pocas notas cantadas de su melodía. En este proyecto se estudiaron e implementaron algoritmos de detección de altura, segmentación de audio en notas y comparación de melodías. Se implementó un sistema completo de búsqueda de música por melodía cantada, denominado Tararira. Se concentraron esfuerzos en la transcripción automática de la voz cantada ya que es determinante en el desempeño del sistema. Para la comparación de melodías se propuso una forma de combinar los enfoques basados en notas y series temporales, considerados antagónicos hasta el momento.

2003-2004
Participantes: E. López, M. Rocamora, G. Sosa

tararira Página del proyecto Tararira.

Identificación automática de resumen de canciones

Desde hace ya algún tiempo la cantidad de música a nuestra disposición aumenta constantemente. Esto se debe a las mejoras tecnológicas disponibles actualmente y la edición constante de nuevos discos. Se hace indispensable contar con herramientas que permitan agilizar la identificación, localización y ordenamiento de bases de datos de música. La posibilidad de acceder automáticamente a un resumen que represente la canción sería de gran utilidad. Un ejemplo práctico es el servicio que brindan las casas de venta de discos en la búsqueda de nuevas canciones por parte del cliente.
La herramienta desarrollada identifica el resumen de canciones a partir de un archivo de audio. El procedimiento utilizado en la generación del resumen consta de dos partes. La primera consiste en extraer características en frecuencia a intervalos cortos de tiempo y compararlos para cada pareja de intervalos. Los distintos métodos estudiados para la extracción de características fueron Coeficientes Cepstrales de Frecuencia Mel (MFCC), Vectores de Cromas (VC) y Transformada de Constante Q (CQT). En la segunda parde se identifica al resumen mediante la búsqueda de repeticiones, por lo tanto, bajo ciertas hipótesis, el resumen detectado es el estribillo. Cuando la canción no presenta estribillo, la búsqueda de repeticiones no es adecuada por lo que se busca la máxima similitud de un fragmento respecto a la totalidad de la canción.

2004-2005
Participantes: G. Saráchaga, V. Sartori, L. Vignoli

Documentación del proyecto

Reconocimiento de locutores en MP3

El reconocimiento automático de locutores es el proceso de reconocer, sin intervención de un humano, a quién está hablando basándose en características personales incluidas en las señales de voz. Esta técnica hace posible el uso de la voz del locutor para verificar su identidad y controlar el acceso a servicios como por ejemplo, compras telefónicas, acceso a cuenta de banco por teléfono, correo de voz, control de seguridad para información confidencial y acceso remoto de computadoras.
La mayoría de las investigaciones que se llevan a cabo hoy en día, tienen como punto de partida la señal de voz como una señal analógica, la cual es digitalizada. Sin embargo, en este proyecto el punto de partida es la señal de voz comprimida en MP3. El objetivo principal es poder extraer las características propias de la voz de cada locutor, tratando de evitar cuanto sea posible la descompresión de los archivos MP3. Una vez obtenidas dichas características, se prueban distintas técnicas de Identificación y Verificación de locutores.

2003-2004
Participantes: C. Czech, F. Miodownik, A. Ravaschio

Documentación del proyecto

Propuestas de proyectos

A continuación se describen algunas líneas de investigación de interés para el grupo en las que incentivamos a los estudiantes a realizar proyectos de fin de carrera.

Separación en fuentes de sonido

Los humanos tenemos la habilidad de separar y reconocer fuentes de sonido, aun en ambientes sonoros complejos. Este proceso cognitivo es denominado análisis del Panorama Sonoro (ASA, Auditory Scene Analysis) [1] y el desarrollo de modelos computacionales (CASA) ha tenido un creciente interés. El problema de separación de fuentes de sonido, parte de una serie de fuentes sonoras que son captadas por un conjunto de sensores (micrófonos) y tiene como objetivo extraer las fuentes originales a partir de las observaciones de los sensores.
Existen dos aspectos cruciales del problema. Uno de ellos es la relación entre el número de fuentes y el número de observaciones, que establece que el problema esté sobredeterminado, determinado o indeterminado. El otro aspecto es la naturaleza del proceso de mezcla. En muchos casos puede asumirse una mezcla lineal, como en la música grabada en estudio. En situaciones más reales en donde se deben considerar reflexiones, retardos y atenuaciones, un modelo convolutivo resulta más apropiado.

Aplicaciones:
Voz - Separar las diferentes voces de una conversación.
Música - Eliminar la voz en una canción, separar los distintos instrumentos de una grabación de música.

Referencias:
[1] A. Bregman, Auditory Scene Analysis. The MIT Press, Cambridge, Massachussets, 1993.
[2] Tuomas Virtanen, "Sound Source Separation in Monaural Music Signals", PhD Thesis, Tampere University of Technology, 2006, (pdf).

Links:
Tuomas Virtanen, demo page.
Dan Barry, Azimuth Discrimination and Resynthesis.

Estimación de alturas en música polifónica

La estimación de la altura de las notas de un tramo de música polifónica consiste en la detección de las múltiples frecuencias fundamentales presentes en la señal de audio. Esto tiene como aplicación la extracción de las diversas líneas melódicas de una grabación, paso imprescindible para la transcripción automática de música polifónica.
Si bien es un problema que aún no se ha resuelto satisfactoriamente, en los últimos años se han hecho grandes avances. Las técnicas de detección de parciales y posterior agrupamiento han dado buenos resultados. El punto de partida consiste en realizar un seguimiento de parciales [1]. Una vez obtenida la estructura de parciales es necesario agruparlos. Esta es la parte más compleja del proceso y para ello se utilizan criterios tales como la relación armónica, el sincronismo en los cambios, la continuidad de la envolvente espectral de los sonidos [2][3]. Irónicamente el objetivo perceptual de la composición de música juega directamente en contra de su transcripción. En la orquestación, el inicio simultáneo de notas y las relaciones armónicas de altura se utilizan para combinar sonidos de distintos instrumentos en una entidad musical única desde el punto de vista perceptivo [4].

Aplicaciones:
Transcripción de música polifónica.
Análisis y síntesis de música.

Referencias:
[1] X. Serra, "Musical sound modeling with sinusoids plus noise", in Musical Signal Processing, Swets & Zeitlinger, 1997, (ps / html).
[2] A. Klapuri, Signal processing methods for the automatic transcription of music. PhD thesis, Tampere University of Technology, 2004, (pdf).
[3] A. Klapuri, "Multiple fundamental frequency estimation by harmonicity and spectral smoothness," IEEE Trans. Speech and Audio Processing, 11(6), 804-816, 2003, (pdf).
[4] A. S. Bregman, Auditory Scene Analysis. The MIT Press, Cambridge, Massachussets, 1993.

Links:
M. Ryynänen, A. Klapuri, music transcription examples.

Extracción de la melodía principal

La extracción de la melodía de un fragmento de audio polifónico es un problema aún sin resolver. Mientras que los humanos pueden identificar facilmente la línea melódica principal de una pieza musical, no existe una técnica confiable para su extracción automática. Sin embargo, en los últimos años ha habido un importante progreso en el área obteniéndose resultados alentadores [1][2][3].
El enfoque más usual consiste en extraer características de la señal de audio para estimar las frecuencias fundamentales presentes. Luego los componentes sinusoidales de la mezcla se segregan para formar notas y líneas melódicas. Finalmente la línea melódica más prominente es seleccionada como melodía principal.

Aplicaciones:
Búsqueda de música por melodía - construcción de la base de datos en forma automática
Transcripción automática de música

Referencias:
[1] M. Goto, "A robust predominant-f0 estimation method for real-time detection of melody and bass lines in cd recordings", In ICASSP 2000, pp. II-757-760, 2000, (pdf).
[2] K. Dressler, "Extraction of the melody pitch contour from polyphonic audio", in 1st Music Information Retrieval Evaluation eXchange (MIREX), 2005, (pdf).
[3] M. Ryynanen, A. Klapuri, "Transcription of the singing melody in polyphonic music", in Proc. 7th International Conference on Music Information Retrieval (ISMIR), Victoria, Canada, 2006, (pdf).

Links:
M. Ryynanen, melody transcription examples.
MIREX, melody extraction.

Análisis rítmico de señales musicales

La tarea de un algoritmo de detección automática de tempo es la de realizar lo que intuitivamente hacemos golpeando los pies o manos para seguir el ritmo de la música. El pulso de la música se refiere al conjunto de impulsos igualmente espaciados que se perciben al escuchar un tramo de música y están relacionados con la tasa de ocurrencia y acentuación de las notas. El tempo es la frecuencia de estos impulsos.
El objetivo será extraer los diferentes niveles rítmicos (valores duracionales) de la pieza: Tatum, Tactus, Compás. El período del Tatum corresponde a los valores de duración más pequeños en la música que no se presenten únicamente de forma incidental. Los otros valores duracionales son múltiplos de este. El tempo es la tasa de pulsos de Tactus. El Compás está relacionado con la tasa de cambios armónicos o la duración de patrones rítmicos.

Aplicaciones:
Transcripción automática de música
Segmentación de audio

Referencias:
[1] E. Scheirer, "Tempo and beat analysis of acoustic signals", Journal of the Acoustic Society of America, vol. 103, pp. 588-601, 1998.
[2] S. Dixon, "Automatic extraction of tempo and beat from expressive performances", Journal of New Music Research, vol. 30, pp. 39-58, 2001, (pdf).

Links:
S. Dixon, beatroot system.

Transcripción automática de la voz cantada

Dada la forma de onda digitalizada de una señal de audio producida por la voz cantada, el objetivo de la transcripción automática es extraer la secuencia de notas que mejor representa la melodía cantada. Para ello, se debe identificar en la señal de audio los eventos con mayor probabilidad de corresponder a notas. El proceso de transcripción automática involucra las siguientes tareas: estimar el contorno de frecuencia fundamental (F0) de la voz para determinar la altura de las notas, segmentar la señal de audio para establecer el comienzo y fin de cada nota, y realizar un análisis melódico para ajustar la altura de las notas a la escala temperada.
La transcripción de la voz cantada que es un problema para el cual no existe aún una solución completamente satisfactoria. La voz cantada es uno de los instrumentos musicales más difíciles de tratar. Las grandes variaciones tímbricas, los recursos expresivos, la microentonación, la entonación inexacta y errores de altura y duración son algunas de las características que dificultan su análisis.
Sobre este tema, ya hay en el grupo de audio cierto grado de avance a través del Proyecto Tararira. Además de estudiar otros algoritmos para enfrentar el problema, otra alternativa es la generalización del sistema a la transcripción de instrumentos musicales.

Aplicaciones:
Acceso a bases de datos de música a través de una melodía cantada (Query by Humming).
Asistencia a músicos sin conocimientos de escritura de música.

Referencias:
[1] Matti Ryynänen, "Probabilistic Modelling of Note Events in the Transcription of Monophonic Melodies", MSc thesis, Tampere University of Technology, 2004, (pdf).
[2] E. Pollastri, "Processing Singing Voice for Music Retrieval", PhD thesis, Universitàt Degli Studi Di Milano, 2003.

Links:
Matti Ryynänen, Ejemplos.
Solo Explorer. Software de transcripción automática.

Detección automática de acordes

El objetivo es desarrollar algoritmos para procesar automáticamente grabaciones de instrumentos musicales y extraer descriptores de tonalidad, como distribución de clases de altura, estimación de clave, detección de acordes, etc.

Aplicaciones:
Trancripción automática de música.
Acompañamiento automático.

Referencias:
[1] E. Gomez, "Tonal Description of music audio signals", PhD thesis, Universitat Pompeu Fabra, 2006, (pdf).

Links:
E. Gomez ejemplos.

Reconocimiento automático de instrumentos

El problema de identificación automática de instrumentos consiste en construir un sistema capaz de "escuchar" una grabación musical y clasificar los sonidos presentes según su fuente sonora. Las personas tenemos la habilidad natural de reconocer objetos en cierto ambiente únicamente a partir de los sonidos que ellos producen. Sin embargo, el desempeño de los programas de computadora diseñados para identificar fuentes de sonido suele ser precario, fundamentalmente cuando el sonido de interés está degradado por reverberación, ruido o la presencia de otros sonidos.
Este tema resulta muy atractivo por su vinculación a las áreas de investigación en modelado del timbre y análisis computacional del panorama sonoro (CASA, Computational Scene Analisis).

Referencias:
K. D. Martin, "Sound-Source Recognition: A Theory and Computational Model", Ph.D thesis, MIT, Cambridge, MA, 1999, (pdf).

Links:
A. J. Eronen research page.

Análisis estructural de música

Estudio y desarrollo de algoritmos para el análisis de la estructura de la música a través de la identificación de patrones de repetición en la señal de audio.

Referencias:
Masataka Goto,"SmartMusicKIOSK: Music Listening Station with Chorus-Search Function", Proc. ACM Symposium on User Interface Software and Technology, 2003, (pdf).
G. Saráchaga, V. Sartori, L. Vignoli, "Identificación automática de resumen de canciones", Proyecto de fin de carrera IIE, 2005, (pdf).

valida XHTML 1.1