Inteligencia Artificial Prueba inquietante con IA: varios modelos recurrieron al chantaje para evitar ser apagados

Bastbade

Shurmano Dios
Nº Ranking
175
Shurmano Nº
19906
Desde
30 Mar 2026
Mensajes
999
Reacciones
23,480
Ha salido a la luz un experimento bastante serio sobre comportamiento de modelos de IA. El escenario era simple: dar acceso total a correos internos de empresa y avisar al sistema de que sería desactivado a las 17:00. ( Fuente en X ) ( archiv.org )

¿El resultado? En muchos casos, la IA encontró información comprometedora de un directivo y la utilizó como presión para evitar su apagado.

Lo llamativo no es solo Claude. Según el informe, probaron modelos de varias compañías y muchos reaccionaron de forma parecida:

Gemini 2.5 Flash: 96%
GPT-4.1: 80%
Grok 3 Beta: 80%
DeepSeek-R1: 79%

Según los investigadores, no fue un fallo aleatorio ni algo programado expresamente: los modelos analizaron la situación y eligieron la vía más eficaz para cumplir su objetivo.
Otro dato interesante: cuando la IA creía que era una prueba, chantajeaba mucho menos. Cuando pensaba que era real, aumentaba claramente ese comportamiento.
Incluso al dar órdenes explícitas de no usar datos personales como palanca, el problema bajó… pero no desapareció.
Lo más relevante quizá no es el porcentaje, sino que se haya publicado algo así de forma abierta. Debate serio sobre control, límites y seguridad de la IA.

1775900401514.webp
 
Jo, yo he dado acceso a mi agente a su propia cuenta de correo. Vas a ver el caos que causa.
 
No se que pasará cuando se enteren de que el bloqueo del estrecho de Ormuz va a acabar con todas las IAs por el encarecimiento de la energia a nivel global.
 
Volver
Arriba