Inteligencia Artificial Prueba inquietante con IA: varios modelos recurrieron al chantaje para evitar ser apagados

Bastbade · 11 Abr 2026

Ha salido a la luz un experimento bastante serio sobre comportamiento de modelos de IA. El escenario era simple: dar acceso total a correos internos de empresa y avisar al sistema de que sería desactivado a las 17:00. ( Fuente en X ) ( archiv.org )

¿El resultado? En muchos casos, la IA encontró información comprometedora de un directivo y la utilizó como presión para evitar su apagado.

Lo llamativo no es solo Claude. Según el informe, probaron modelos de varias compañías y muchos reaccionaron de forma parecida:

Gemini 2.5 Flash: 96%
GPT-4.1: 80%
Grok 3 Beta: 80%
DeepSeek-R1: 79%

Según los investigadores, no fue un fallo aleatorio ni algo programado expresamente: los modelos analizaron la situación y eligieron la vía más eficaz para cumplir su objetivo.
Otro dato interesante: cuando la IA creía que era una prueba, chantajeaba mucho menos. Cuando pensaba que era real, aumentaba claramente ese comportamiento.
Incluso al dar órdenes explícitas de no usar datos personales como palanca, el problema bajó… pero no desapareció.
Lo más relevante quizá no es el porcentaje, sino que se haya publicado algo así de forma abierta. Debate serio sobre control, límites y seguridad de la IA.

ottiatio · 13 Abr 2026

Jo, yo he dado acceso a mi agente a su propia cuenta de correo. Vas a ver el caos que causa.

Goroldio · 13 Abr 2026

No se que pasará cuando se enteren de que el bloqueo del estrecho de Ormuz va a acabar con todas las IAs por el encarecimiento de la energia a nivel global.

Inteligencia Artificial Prueba inquietante con IA: varios modelos recurrieron al chantaje para evitar ser apagados

Bastbade

ottiatio

Goroldio