Home » Seminario del IIE » Nuevas maneras de atacar viejos problemas: tres problemas clásicos del procesamiento de imágenes

Nuevas maneras de atacar viejos problemas: tres problemas clásicos del procesamiento de imágenes

Mauricio Delbracio

Las imágenes digitales se generan mediante el uso de dispositivos de adquisición física, tales como cámaras digitales, pero también mediante la simulación de la propagación de la luz a través de modelos ambientales. En ambos casos, las limitaciones físicas o computacionales en el proceso de formación de las imágenes introducen artefactos como la borrosidad o el ruido. El desarrollo de tecnologías de procesamiento es entonces esencial para superar estas limitaciones.  En este seminario, presentamos varias aplicaciones de procesamiento de imágenes en las que un cambio de enfoque conduce a nuevas ideas y al desarrollo de algoritmos más simples. Los ejemplos son: la estimación de la respuesta al impulso (PSF) de una cámara digital, la eliminación de la borrosidad por movimiento en una ráfaga o video y la eliminación de ruido en películas de animación.

Estimación de la respuesta al impulso de una cámara digital

La estimación precisa del núcleo de convolución (por falta de definición) intrínseco a la cámara es un problema importante en procesamiento de imágenes. Los avances tecnológicos recientes han impactado significativamente en la calidad de las imágenes, por lo que una mejora en la exactitud de los procedimientos de calibración resulta imprescindible para impulsar aún más este desarrollo.

En la primera parte de esta charla presentamos una teoría matemática que modela la adquisición física de una imagen por una cámara digital. Sobre la base de este modelo, desarrollamos dos algoritmos totalmente automáticos para estimar la falta de definición intrínseca de la cámara (representada por su función de dispersión o PSF). En el primero, la estimación se realiza a partir de una fotografía de un patrón de calibración que contiene un ruido blanco especialmente diseñado [1]. La prueba de casi-optimalidad de dicho patrón, en el sentido del condicionamiento numérico del problema de estimación, constituye una de nuestras principales contribuciones. El segundo algoritmo simplifica el procedimiento experimental al no requerir el uso de un patrón de calibración predeterminado. De hecho, se prueba que dos fotografías de una escena plana texturada, tomadas a dos distancias diferentes con la misma configuración de la cámara, son suficientes para producir una estimación precisa [2].

Trabajo realizado en conjunto con A. Almansa, P.Musé y J.M. Morel.

Eliminación de borrosidad debida al temblor de cámara en imágenes y videos.

La borrosidad en imágenes puede ser debida a fenómenos intrínsecos a la cámara (capturados por la PSF)  o a fenómenos extrínsecos, debido por ejemplo, al movimiento de objetos en la escena o al movimiento de la cámara. Típicamente, capturas hechas en escenarios de poca luz van a exhibir borrosidad debido  al temblor de la mano del fotógrafo además de ruido debido a la baja luz.  Junto con el Prof. Sapiro, de la Universidad de Duke, EEUU, hemos desarrollado técnicas que en base a capturar  una ráfaga, una modalidad presente en casi toda cámara o teléfono celular actual, se produce una imagen limpia y nítida. La técnica explota el hecho de que la borrosidad por temblor de cámara es aleatoria (consecuencia de la aleatoriedad del temblor de la mano) por lo que la información presente en los distintos cuadros de la ráfaga es complementaria.  El algoritmo es sorprendentemente sencillo: un promedio ponderado en el dominio de Fourier, con pesos proporcionales a la magnitud del espectro [3,4].  Los resultados son de muy alta calidad y un orden de magnitud más rápido que los métodos utilizados hasta ahora. La motivación del algoritmo  viene de que la borrosidad actúa como un filtro pasa bajo. Como distintos frames tienen distinto blur los filtros pasa bajos son diferentes. El procedimiento busca seleccionar para cada frecuencia de Fourier la componente que está menos atenuada, siendo la menos afectada por su respectivo filtro pasa bajos.

Ejemplo de ráfaga (10 imágenes) y los respectivos núcleos de movimiento (izquierda) y el resultado de la agregación en Fourier y (derecha). Una imagen nítida, presenta un núcleo de movimiento ideal, tipo masa de Dirac.

Siguiendo esta línea de trabajo,  hemos extendido estas ideas para restaurar camera shake en videos capturados con cámaras  portátiles.  Esta extensión no es trivial debido a que típicamente en un video las escenas son dinámicas (oclusiones, movimiento de objetos),  siendo un desafío mayor el poder aplicar técnicas multi-imagen en cuadros que difieren su contenido.  Numerosos experimentos muestran que el algoritmo propuesto logra resultados del estado del arte al mismo tiempo de ser mucho más rápido que los competidores [5]. En el año 2017 esta tecnología fue transferida a la empresa Adobe la cual la incorpora a su producto comercial Adobe After Effects 2017.2.

Eliminación de ruido en películas de animación

Dentro de la misma área de restauración de imágenes, se abordó el problema de la generación  rápida de imágenes sintéticas fotorealistas (rendering fotorealista).  El objetivo es  generar nuevas imágenes a partir de una completa descripción tridimensional de una escena virtual.  El renderizado rápido de imágenes es extremadamente importante para el desarrollo de videojuegos,  la creación de películas de animación, el diseño de equipos de realidad virtual,  la visualización de datos  (por ejemplo, en arquitectura) y el arte en general.

La mayoría de los enfoques típicos se basan en técnicas de integración numérica de Monte Carlo que simulan todos los posibles caminos que un haz de luz puede tomar. El problema principal de estas  técnicas es que la varianza del estimador disminuye linealmente con el número de muestras estocásticas. Varias horas o incluso días pueden ser necesarios para producir imágenes realistas sin ruido. De hecho, en la actualidad, la calidad de la imagen final queda definida  indirectamente por el tiempo de producción disponible y los recursos computacionales o energéticos para generarla.  En efecto, esta línea de investigación se desarrolló en colaboración con la compañía francesa E-On Software, especialista en modelado y renderizado de entornos naturales.

La solución propuesta busca adaptar técnicas del procesamiento de imágenes, en particular de filtrado no local, a este problema específico en el que se conoce toda la información vinculada con la escena a sintetizar. En base a una distancia estadística se comparan las distribuciones de color de los píxeles de la imagen  para poder reutilizar sus muestras en diferentes sectores de la imagen [6]. Esto es posible gracias  al alto nivel de autosimilaridad en las imágenes naturales.

Trabajo realizado en conjunto con T. Buades, P.Musé,  J. Chauvier, N. Phelps y J.M. Morel.

  Referencias

[1] Delbracio, M., Musé, P., Almansa, A. and Morel, J.M., 2012. The non-parametric sub-pixel local point spread function estimation is a well posed problem. International journal of computer vision, 96(2), pp.175-194.

[2] Delbracio, M., Almansa, A., Morel, J.M. and Musé, P., 2012. Subpixel point spread function estimation from two photographs at different distances. SIAM Journal on Imaging Sciences, 5(4), pp.1234-1260.

[3] Delbracio, M. and Sapiro, G., 2015. Burst deblurring: Removing camera shake through fourier burst accumulation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2385-2393).

[4] Delbracio, M. and Sapiro, G., 2015. Removing camera shake via weighted fourier burst accumulation. IEEE Transactions on Image Processing, 24(11), pp.3293-3307.

[5] Delbracio, M. and Sapiro, G., 2015. Hand-held video deblurring via efficient fourier aggregation. IEEE Transactions on Computational Imaging, 1(4), pp.270-283.

[6] Delbracio, M., Musé, P., Buades, A., Chauvier, J., Phelps, N. and Morel, J.M., 2014. Boosting monte carlo rendering by ray histogram fusion. ACM Trans. Graph., 33(1), pp.8-1.