OpenAI propone un antídoto contra las alucinaciones de la IA

💻 ¡MS Office rebajado! ¡Actualiza tu PC con MS Office 2021 de por vida por 31,55€! [ Saber más ]

Los chatbots de IA ya están en aulas, oficinas y nuestra vida diaria, pero arrastran un problema tan molesto como peligroso: a veces “se inventan” cosas.

Estas alucinaciones pueden sonar convincentes y, sin embargo, ser falsas. OpenAI asegura que ha identificado el origen principal del fenómeno y propone un cambio de enfoque que haría a las herramientas futuras más fiables y transparentes.

Entrada Relacionada

💻 ¡MS Office rebajado! ¡Actualiza tu PC con MS Office 2021 de por vida por 31,55€! [ Saber más ]


 

Qué es una alucinación en IA

En el contexto de modelos generativos, una alucinación es cuando el sistema responde con datos incorrectos o inexistentes como si fueran ciertos. El resultado obliga a los usuarios a verificar manualmente cifras, fuentes o hechos, restando tiempo y confianza a la tecnología.

OpenAI, junto con investigadores como Santosh Vempala (Georgia Tech), ha publicado un trabajo de 36 páginas que defiende una tesis clara: las alucinaciones no se deben tanto al diseño de los modelos, sino a cómo se prueban y se clasifican.

Los benchmarks actuales premian responder siempre, incluso cuando el modelo no está seguro, y penalizan a los sistemas que prefieren callar o mostrarse cautos. Es como un examen tipo test que incentiva adivinar en lugar de dejar preguntas en blanco.

 

La propuesta: cambiar el sistema de puntuación

El estudio sugiere invertir el incentivo: que las respuestas “seguras pero erróneas” cuenten muy en contra del modelo, y que admitir incertidumbre o abstenerse sea valorado positivamente. Así, un asistente tendría más motivos para decir “no lo sé” cuando sus evidencias sean débiles, en lugar de inventar una cifra o una cita.

Los autores muestran cómo varía el rendimiento cuando se mide de forma distinta. En un caso, un sistema prudente respondió aproximadamente la mitad de las preguntas pero alcanzó un 74 % de acierto. Otro modelo respondió casi a todo, pero alucinó en 3 de cada 4 ocasiones. Bajo el esquema clásico, el segundo podría parecer “más completo”; con el nuevo, su comportamiento quedaría claramente penalizado.

 

Qué implicaría para tu día a día

Si esta evaluación se adopta ampliamente, los asistentes dejarán de inventar fuentes o estadísticas con tanta ligereza. En su lugar, verás más avisos de incertidumbre o sugerencias del tipo “necesito más contexto”. Puede sonar menos espectacular, pero reduce el riesgo de errores costosos y la necesidad de estar constantemente comprobando todo.

En aulas, fomenta el pensamiento crítico: la IA no simula certezas donde no las hay. En oficinas, baja el coste de verificación en tareas como resúmenes, análisis y reportes. Y en entornos regulados, priorizar la precisión y la trazabilidad por encima del “brillo” comercial es una ventaja evidente.

 

Retos y dudas pendientes

Cambiar los benchmarks no es trivial. Hacen falta umbrales de confianza calibrados, mecanismos para evitar que un modelo “se pase de cauto” y métricas que equilibren cobertura y exactitud. También habrá que estudiar el impacto en tiempos de respuesta y en la experiencia de usuario.

La industria ha competido por modelos más “habladores”. El giro que plantea OpenAI recompone las prioridades: mejor menos respuestas, pero correctas, que un mar de contenido dudoso. Es un paso hacia asistentes que valoran la verdad por encima de la apariencia.

Dejar un comentario

Tu dirección de e-mail nunca será publicada Los campos requeridos están marcados*

Esta web usa cookies para elaborar información estadística y mostrar publicidad personalizada.

Saber más