OpenAI puede clonar una voz con solo 15 segundos de audio

🤖 ¡Rebajas! ¡Robot aspirador Lefant M5 Pro desploma su precio un 72%! [ Saber más ]

OpenAI acaba de anunciar una tecnología de clonación de voz que llamada Voice Engine que puede imitar a cualquier hablante mediante el análisis de una muestra de audio de solo 15 segundos. La compañía afirma que genera «habla natural» con «voces emotivas y realistas».

Esta tecnología se basa en la API de texto a voz preexistente de la compañía y ha estado en desarrollo desde 2022. OpenAI ya ha estado utilizando una versión del conjunto de herramientas para alimentar las voces predefinidas disponibles en la API actual de texto a voz y la función de Lectura en Voz Alta.

OpenAI señala que ven esta tecnología como útil para la leer textos a niños con una voz familiar, traducir entre idiomas o para ayudar a quienes sufren de afecciones del habla súbitas o degenerativas.

A pesar de los posibles beneficios, esta tecnología podrá ser utilizada para generar deepfakes, lo cual ya es un problema a día de hoy. Voice Engine aún no está completamente listo para su lanzamiento, ya que existen serias preocupaciones de privacidad que deben ser abordadas antes de una implementación completa.

OpenAI reconoce que esta tecnología tiene «riesgos graves, que son especialmente preocupantes en un año electoral». La compañía afirma que está incorporando comentarios de «socios estadounidenses e internacionales de todo el gobierno, los medios de comunicación, el entretenimiento, la educación, la sociedad civil y más allá» para garantizar que el producto se lance con la menor cantidad posible de riesgos.

Todos los que han probado la muestra previa aceptaron las políticas de uso de OpenAI, que prohíben la impersonación de otra persona sin consentimiento o derecho legal.

Además, cualquier persona que utilice la tecnología deberá revelar a su audiencia que las voces son generadas por inteligencia artificial. OpenAI implementó medidas de seguridad, como la marca de agua para rastrear el origen de cualquier audio y la «monitorización proactiva» de cómo se está utilizando el sistema. Cuando el producto se lance oficialmente, habrá una «lista de voces no permitidas» que detectará y evitará voces generadas por IA que sean demasiado similares a figuras prominentes.

Voice Engine podría costar 15 dólares por un millón de caracteres, lo que equivale a alrededor de 162.500 palabras. Los materiales de marketing también hacen referencia a una versión «HD» que cuesta el doble, pero la compañía no ha detallado cómo funcionará eso.

Siguiente noticia: LG tiene un monitor portátil de 27" con batería que viaja en un maletín »

Dejar un comentario