En los últimos dos años, hemos presenciado el creciente dominio de la inteligencia artificial en Internet, manifestado a través de una variedad de herramientas y aplicaciones.
Dales vida a las imágenes
Además de los ya familiares chatbots, hoy en día contamos con herramientas sorprendentemente realistas para la generación de imágenes, audio y vídeo, e incluso para transformar audio en vídeo.
En este último aspecto, Alibaba ha presentado una herramienta innovadora que permite dar vida a cualquier imagen mediante una canción o simplemente con la voz.
El gigante tecnológico chino ha lanzado una aplicación que posibilita tomar una imagen como referencia, junto con una pista de audio, para luego combinarlas y generar un vídeo en el que la persona de la foto canta o habla.
Alibaba introduce EMO
El equipo de investigadores del Instituto de Inteligencia Computacional de Alibaba ha nombrado a su nueva IA “EMO”, que proviene de “Emote Portrait Alive”. Esta innovadora herramienta tiene la capacidad de animar retratos fotográficos y generar vídeos de la persona representada mientras habla o canta.
La página oficial del proyecto ha exhibido diversos ejemplos del funcionamiento de esta tecnología. Además, Alibaba ha presentado un ejemplo inspirado en el vídeo de Sora de OpenAI, su IA para generar vídeos realistas.
Según el documento del estudio, la IA puede producir movimientos faciales fluidos y expresivos, así como gestos de cabeza que se sincronizan casi a la perfección con la canción o el audio de fondo.
¿Audio a video? Sí, también es posible
Su método de difusión tiene la capacidad de convertir el audio en vídeo de manera eficiente. Los investigadores han entrenado este modelo con un extenso conjunto de datos que incluye más de 250 horas de vídeos de discursos, películas, programas de televisión y actuaciones musicales.
En lugar de utilizar el 3D para dar la ilusión de vida a una fotografía, EMO transforma directamente las ondas de audio en fotogramas de vídeo. Esta técnica le permite capturar los movimientos sutiles y las características específicas de la identidad asociadas con el habla natural.
Según los experimentos detallados en el estudio, EMO supera de manera significativa a los métodos más avanzados en términos de calidad de vídeo, conservación de la identidad del retrato y expresión.