Google puede generar vídeos de personas hablando, gesticulando y moviéndose a partir de una foto

Investigadores de Google han desarrollado un sistema de Inteligencia Artificial que puede generar videos realistas de personas hablando, gesticulando y moviéndose a partir de una sola fotografía.

La tecnología, llamada VLOGGER, se basa en modelos avanzados de aprendizaje automático para sintetizar imágenes sorprendentemente realistas, abriendo un abanico de aplicacionesy, al mismo tiempo, planteando preocupaciones sobre deepfakes.

📱💻 ¡Chollazos! ¡Hemos seleccionado las mejores ofertas tecnológicas para que tú no pierdas tiempo! [ Saber más ]

Descrito en un artículo de investigación titulado «VLOGGER: Difusión multimodal para la síntesis de avatares incorporados», el modelo de IA puede tomar unab foto de una persona y un clip de audio como entrada, y luego producir un video que coincida con el audio, mostrando a la persona hablando las palabras y realizando expresiones faciales, movimientos de cabeza y gestos de manos correspondientes.

Los videos no son perfectos, ya que presentan algunos artefactos, pero representan un avance significativo en la capacidad de animar imágenes estáticas.

Los investigadores, liderados por Enric Corona en Google Research, aprovecharon un tipo de modelo de aprendizaje automático llamado modelos de difusión para lograr el resultado novedoso. Los modelos de difusión han demostrado recientemente un rendimiento notable en la generación de imágenes altamente realistas a partir de descripciones de texto.

Al extenderlos al dominio del video y entrenarlos con un nuevo y vasto conjunto de datos, el equipo pudo crear un sistema de IA que puede dar vida a fotos de una manera altamente convincente.

En contraste con trabajos anteriores, nuestro método no requiere entrenamiento para cada persona, no depende de la detección y recorte facial, genera la imagen completa (no solo la cara o los labios) y considera un amplio espectro de escenarios (por ejemplo, torso visible o diversas identidades de sujetos) que son críticos para sintetizar correctamente humanos que comunican.

Un elemento clave fue la curación de un enorme nuevo conjunto de datos llamado MENTOR que contiene más de 800,000 identidades diversas y 2,200 horas de video — una orden de magnitud mayor que lo que estaba disponible anteriormente. Esto permitió que VLOGGER aprendiera a generar videos de personas con diversas etnias, edades, vestimentas, poses y entornos sin sesgos.

La tecnología abre una serie de casos de uso. El artículo demuestra la capacidad de VLOGGER para doblar automáticamente videos a otros idiomas simplemente cambiando la pista de audio, para editar y rellenar fotogramas faltantes en un video de manera transparente, y para crear videos completos de una persona a partir de una sola foto.

Uno podría imaginar que los actores pueden licenciar modelos 3D detallados de sí mismos que podrían usarse para generar nuevas actuaciones. La tecnología también podría utilizarse para crear avatares fotorrealistas para realidad virtual y juegos. Y podría habilitar la creación de asistentes virtuales y chatbots impulsados por IA que sean más atractivos y expresivos.

Google ve a VLOGGER como un paso hacia los «agentes conversacionales incorporados» que pueden interactuar con los humanos de manera natural a través del habla, los gestos y el contacto visual.

VLOGGER se puede usar como una solución independiente para presentaciones, educación, narración, comunicación en línea de bajo ancho de banda y como una interfaz para interacción humano-computadora basada solo en texto.

Sin embargo, la tecnología también tiene el potencial de ser mal utilizada, por ejemplo, para crear deepfakes — medios sintéticos en los que una persona en un video se reemplaza con la imagen de otra persona. A medida que estos videos generados por IA se vuelven más realistas y más fáciles de crear, podrían aumentar los desafíos en torno a la desinformación y la falsificación digital.

VLOGGER aún tiene limitaciones. Los videos generados son relativamente cortos y tienen un fondo estático. Las personas no se mueven en un entorno 3D. Y sus modales y patrones de habla, aunque realistas, todavía no son indistinguibles de los de los humanos reales.

¿Cuál es tu reacción?

Sorprendido

50%

Feliz

Indiferente

Triste

Enfadado

Aburrido

50%

Incrédulo

¡Buen trabajo!

✏️ Ver comentarios

Sobre el Autor

Luis A.

Luis es el creador y editor jefe de Teknófilo. Se aficionó a la tecnología con un Commodore 64 e hizo sus pinitos programando gracias a los míticos libros de 🛒 'BASIC para niños' con 11 años. Con el paso de los años, la afición a los ordenadores se ha extendido a cualquier cacharrito que tenga una pantalla y CPU.

Comentarios

Deja un comentario

Google puede generar vídeos de personas hablando, gesticulando y moviéndose a partir de una foto

Deja un comentarioCancelar respuesta