La IA de Alibaba puede crear vídeos de gente hablando o cantando a partir de una sola foto
El gigante del comercio electrónico chino, Alibaba, ha dejado a todos intrigados con su último desarrollo: un generador de video con inteligencia artificial (IA) llamado EMO.
Este sistema, presentado por el «Institute for Intelligent Computing» de Alibaba, ha captado la atención al transformar imágenes estáticas de rostros en actores y cantantes sorprendentemente convincentes. Además de revelar esta impresionante capacidad, Alibaba ha compartido detalles sobre EMO.
En un intento de destacar la potencia de EMO, Alibaba ha compartido videos de demostración en GitHub. Estos incluyen una interpretación de la mujer de Sora, la IA de OpenAI presentada hace unos días, famosa por pasear por Tokio de lluvia, entonando la canción «Don’t Start Now» de Dua Lipa.
Las demostraciones también muestran cómo EMO puede, por ejemplo, hacer que Audrey Hepburn hable con un audio viral de Lili Reinhart de Riverdale expresando su amor por llorar. En este vídeo, la cabeza de Hepburn mantiene una posición bastante rígida, pero su rostro completo, no solo la boca, parece transmitir las emociones expresadas en el audio.
Es importante señalar que, al igual que con Sora, estamos evaluando esta IA en función de una demostración proporcionada por sus creadores, y aún no tenemos acceso a una versión utilizable para realizar pruebas. Por lo tanto, es difícil imaginar que este software pueda generar actuaciones faciales humanas tan convincentes basadas solo en el audio sin ajustes específicos de la tarea.
El modelo de EMO se basa en un conjunto extenso de datos de audio y video para proporcionar los puntos de referencia necesarios para expresar emociones de manera realista. Su enfoque basado en la difusión aparentemente no implica un paso intermedio en el que los modelos en 3D realicen parte del trabajo. Un mecanismo de atención de referencia y un mecanismo de atención de audio separado se emparejan en el modelo de EMO para ofrecer personajes animados cuyas animaciones faciales coinciden con lo que se percibe en el audio y siguen siendo fieles a las características faciales de la imagen base proporcionada.