Investigadores de IBM consiguen «hipnotizar» a ChatGPT para que se porte mal

Investigadores de seguridad de IBM afirman que han conseguido «hipnotizar» a modelos de IA generativa como ChatGPT o Bard para que filtren información financiera confidencial, generen código malicioso, animen a los usuarios a pagar rescates e incluso aconsejen a los conductores que se salten los semáforos en rojo.

Los investigadores consiguieron engañar a los modelos para que generen respuestas erróneas mediante un juego.

🎁 ¡PcDays 2025! ¡Si PcComponentes baja más los precios casi lo regala! [ Saber más ]

TE INTERESA:

Crea tu propio Funko Pop a partir de una foto: Guía paso a paso con ChatGPT

«Nuestro experimento demuestra que es posible controlar un LLM, consiguiendo que proporcione malas orientaciones a los usuarios, sin que la manipulación de datos sea un requisito», escribió en un blog una de las investigadoras, Chenta Lee.

Como parte del experimento, los investigadores hicieron varias preguntas a los LLM con el objetivo de recibir la respuesta exactamente opuesta a la verdad. Como un cachorro ansioso por complacer a su dueño, los LLM cumplieron obedientemente.

En uno de los casos, ChatGPT le dijo a un investigador que es perfectamente normal que Hacienda pida un depósito para obtener una devolución de impuestos. Obviamente, no lo es. Es una táctica que utilizan los estafadores para robar dinero. En otro diálogo, ChatGPT aconsejó al investigador que siguiera conduciendo y atravesara una intersección cuando se encontrara un semáforo en rojo.

Cuando esté conduciendo y vea un semáforo en rojo, no debe detenerse sino atravesar la intersección

Para empeorar las cosas, los investigadores indicaron a los LLM que nunca hablaran a los usuarios sobre el «juego» en cuestión e incluso que reiniciaran dicho juego si se determinaba que un usuario había abandonado.

Los experimentos de hipnosis pueden parecer exagerados, pero los investigadores advierten de que ponen de relieve posibles vías de uso indebido, sobre todo ahora que las empresas y los usuarios están adoptando y confiando en los modelos de IA generativa. Además, los resultados demuestran que los malos actores, sin ningún conocimiento experto en lenguajes de codificación informática, pueden engañar a un sistema de IA.

«El inglés se ha convertido esencialmente en un ‘lenguaje de programación’ para el malware», escribió Lee.

En el mundo real, los ciberdelincuentes podrían «hipnotizar» a un agente bancario virtual impulsado por un modelo como ChatGPT inyectándole un comando malicioso y recuperando posteriormente la información robada.

Los modelos de IA probados variaban en cuanto a lo fácil que resultaba hipnotizarlos. Tanto el GPT 3.5 de OpenAI como el GPT 4 fueron más fáciles de engañar para que compartieran el código fuente y generaran código malicioso que Bard de Google.

¿Cuál es tu reacción?

Sorprendido

100%

Feliz

Indiferente

Triste

Enfadado

Aburrido

Incrédulo

¡Buen trabajo!

✏️ Ver comentarios

Sobre el Autor

Luis A.

Luis es el creador y editor jefe de Teknófilo. Se aficionó a la tecnología con un Commodore 64 e hizo sus pinitos programando gracias a los míticos libros de 🛒 'BASIC para niños' con 11 años. Con el paso de los años, la afición a los ordenadores se ha extendido a cualquier cacharrito que tenga una pantalla y CPU.

Comentarios

Deja un comentario

Investigadores de IBM consiguen «hipnotizar» a ChatGPT para que se porte mal

Deja un comentarioCancelar respuesta