Bastbade
Shurmano Dios
- Nº Ranking
- 175
- Shurmano Nº
- 19906
- Desde
- 30 Mar 2026
- Mensajes
- 999
- Reacciones
- 23,480
Ha salido a la luz un experimento bastante serio sobre comportamiento de modelos de IA. El escenario era simple: dar acceso total a correos internos de empresa y avisar al sistema de que sería desactivado a las 17:00. ( Fuente en X ) ( archiv.org )
¿El resultado? En muchos casos, la IA encontró información comprometedora de un directivo y la utilizó como presión para evitar su apagado.
Lo llamativo no es solo Claude. Según el informe, probaron modelos de varias compañías y muchos reaccionaron de forma parecida:
Gemini 2.5 Flash: 96%
GPT-4.1: 80%
Grok 3 Beta: 80%
DeepSeek-R1: 79%
Según los investigadores, no fue un fallo aleatorio ni algo programado expresamente: los modelos analizaron la situación y eligieron la vía más eficaz para cumplir su objetivo.
Otro dato interesante: cuando la IA creía que era una prueba, chantajeaba mucho menos. Cuando pensaba que era real, aumentaba claramente ese comportamiento.
Incluso al dar órdenes explícitas de no usar datos personales como palanca, el problema bajó… pero no desapareció.
Lo más relevante quizá no es el porcentaje, sino que se haya publicado algo así de forma abierta. Debate serio sobre control, límites y seguridad de la IA.
¿El resultado? En muchos casos, la IA encontró información comprometedora de un directivo y la utilizó como presión para evitar su apagado.
Lo llamativo no es solo Claude. Según el informe, probaron modelos de varias compañías y muchos reaccionaron de forma parecida:
Gemini 2.5 Flash: 96%
GPT-4.1: 80%
Grok 3 Beta: 80%
DeepSeek-R1: 79%
Según los investigadores, no fue un fallo aleatorio ni algo programado expresamente: los modelos analizaron la situación y eligieron la vía más eficaz para cumplir su objetivo.
Otro dato interesante: cuando la IA creía que era una prueba, chantajeaba mucho menos. Cuando pensaba que era real, aumentaba claramente ese comportamiento.
Incluso al dar órdenes explícitas de no usar datos personales como palanca, el problema bajó… pero no desapareció.
Lo más relevante quizá no es el porcentaje, sino que se haya publicado algo así de forma abierta. Debate serio sobre control, límites y seguridad de la IA.