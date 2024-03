Investigadores de Google han desarrollado un sistema de Inteligencia Artificial que puede generar videos realistas de personas hablando, gesticulando y moviéndose a partir de una sola fotografía.

La tecnología, llamada VLOGGER, se basa en modelos avanzados de aprendizaje automático para sintetizar imágenes sorprendentemente realistas, abriendo un abanico de aplicacionesy, al mismo tiempo, planteando preocupaciones sobre deepfakes.

Descrito en un artículo de investigación titulado «VLOGGER: Difusión multimodal para la síntesis de avatares incorporados», el modelo de IA puede tomar unab foto de una persona y un clip de audio como entrada, y luego producir un video que coincida con el audio, mostrando a la persona hablando las palabras y realizando expresiones faciales, movimientos de cabeza y gestos de manos correspondientes.

Los videos no son perfectos, ya que presentan algunos artefactos, pero representan un avance significativo en la capacidad de animar imágenes estáticas.

Los investigadores, liderados por Enric Corona en Google Research, aprovecharon un tipo de modelo de aprendizaje automático llamado modelos de difusión para lograr el resultado novedoso. Los modelos de difusión han demostrado recientemente un rendimiento notable en la generación de imágenes altamente realistas a partir de descripciones de texto.

Al extenderlos al dominio del video y entrenarlos con un nuevo y vasto conjunto de datos, el equipo pudo crear un sistema de IA que puede dar vida a fotos de una manera altamente convincente.

En contraste con trabajos anteriores, nuestro método no requiere entrenamiento para cada persona, no depende de la detección y recorte facial, genera la imagen completa (no solo la cara o los labios) y considera un amplio espectro de escenarios (por ejemplo, torso visible o diversas identidades de sujetos) que son críticos para sintetizar correctamente humanos que comunican.

Un elemento clave fue la curación de un enorme nuevo conjunto de datos llamado MENTOR que contiene más de 800,000 identidades diversas y 2,200 horas de video — una orden de magnitud mayor que lo que estaba disponible anteriormente. Esto permitió que VLOGGER aprendiera a generar videos de personas con diversas etnias, edades, vestimentas, poses y entornos sin sesgos.