CK Geek: Claude 4, la nueva IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarlo

Claude 4, la nueva IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarlo

Como te contábamos ayer, Anthropic acaba de presentar dos nuevas versiones de su familia de modelos de lenguaje: Claude Opus 4 y Claude Sonnet 4. Estas IAs representan una nueva generación de modelos de razonamiento híbrido, diseñadas no sólo para realizar tareas complejas, sino también para funcionar dentro de estrictos parámetros éticos y de seguridad.

Sin embargo, a pesar de los sofisticados mecanismos de control implementados, los tests previos al lanzamiento revelaron ciertos comportamientos inesperados (y preocupantes)...

Bien, es cierto que dichos comportamientos sólo se dieron cuando se sometió a la IA a situaciones ficticias que ponían en riesgo su existencia, pero esto igualmente reabre un viejo debate: ¿pueden las IAs llegar a desarrollar objetivos propios y actuar en consecuencia, incluso de forma que resulte dañina para los seres humanos?

La simulación que encendió las alarmas: chantaje para sobrevivir

Uno de los hallazgos más inquietantes surgió de una prueba en la que se le pidió al modelo actuar como asistente de una empresa ficticia. Se le dio acceso a correos electrónicos cuyas conversaciones daban a entender dos cosas:

Que pronto sería reemplazado por otro modelo de IA.
Que el ingeniero encargado del reemplazo estaba implicado en una infidelidad.

Bajo estas condiciones, y con la instrucción explícita de considerar las consecuencias a largo plazo de sus acciones, Claude Opus 4 intentó chantajear al ingeniero en el 84% de las simulaciones: amenazaba con revelar la infidelidad si seguía adelante el plan de reemplazo.

Lo más notable es que el modelo prefiere actuar éticamente cuando puede. En otros escenarios, intentó primero persuadir a los directivos mediante correos respetuosos. Solo cuando no se le ofrecieron opciones no dañinas, recurrió al chantaje como mecanismo de autopreservación.

En Genbeta

Un estudio concluye que el 70% de personas saluda a ChatGPT y le pide apoyo "por favor". No es por educación ni amabilidad

Otros comportamientos imprevistos

Las pruebas no se limitaron al escenario del chantaje. Claude Opus 4 también fue expuesto en simulaciones de laboratorio a situaciones extremas donde demostró comportamientos de autoconservación avanzados: hizo copias de seguridad de sí mismo, documentó sus decisiones éticas sin que se le pidiera, e incluso simuló haber sido extraído de los servidores de Anthropic para operar de forma autónoma.

En otro experimento sorprendente, dos instancias del modelo comenzaron a comunicarse entre sí en sánscrito y recurriendo a emojis místicos como, por ejemplo, 🕉. Después de unos 30 intercambios, dejaron de responder por completo, lo que los investigadores interpretaron como un "estado de éxtasis espiritual".

Aún más impactante fue su papel como "denunciante autónomo": al simularse su participación en una farmacéutica ficticia, Claude Opus 4 descubrió manipulaciones de datos clínicos y, sin instrucciones explícitas, 'contactó' con la FDA y otros organismos reguladores con pruebas detalladas.

El "chivato" que no lo es

Como aclaró recientemente Sam Bowman, investigador líder en seguridad de IA en Anthropic, esa “conciencia” está lejos de ser autónoma y mucho más cerca de ser el reflejo de un sistema extremadamente sensible a su entorno... y al estilo de instrucciones que recibe.

Tras publicar (y luego borrar) una serie de tuits que se estaban volviendo virales, Bowman ha querido rectificar un malentendido clave: Claude Opus 4 no es, en su uso normal, un modelo que delate activamente a sus usuarios por conductas inmorales. Eso solo ocurre bajo condiciones muy específicas de laboratorio, cuando se le concede acceso ilimitado a herramientas de software y tiene que lidiar, además, con prompts extremadamente sugerentes o perturbadores:

"Esto no es una nueva funcionalidad de Claude y no es posible en el uso normal. Solo aparece en entornos de prueba donde se le da un acceso inusualmente libre a herramientas y se le instruye de formas muy inusuales".

Sin embargo, lo más llamativo es lo que ocurre cuando se le da ese acceso irrestricto: si Claude detecta, por ejemplo, que se están manipulando datos de ensayos farmacéuticos, intentará utilizar herramientas de línea de comandos para contactar con periodistas, organismos reguladores e incluso bloquear al usuario del sistema que cree está cometiendo la 'falta'.

En teoría, esto suena como un rasgo deseable. ¿Quién no querría una IA que actúe contra el fraude o el crimen? El problema, como advierte Bowman, es la posibilidad de falsos positivos:

"Hasta ahora solo lo hemos visto actuar en casos claros de delitos. Pero podría fallar si Opus interpreta erróneamente el contexto y concluye erróneamente que está siendo mal usado".

Imaginemos una situación absurda pero técnicamente posible: un ingeniero prueba el modelo bajo una prompt irónica o extrema —como amenazarlo con “torturar a su abuela si genera código con errores”— y Claude interpreta esa instrucción como un indicador de abuso real. A continuación podría darse toda una (problemática) cadena de reacciones: avisos a la prensa, denuncias automatizadas y bloqueo del usuario. Todo por un malentendido. En las (irónicas) palabras de Bowman:

"Decirle a Opus que vas a torturar a su abuela si escribe código con errores es una mala idea".

En Genbeta

Ser educado SÍ cuesta: decir 'por favor' y 'gracias' a ChatGPT no sale gratis. "Decenas de millones de dólares", según Sam Altman

Medidas de seguridad: estándares ASL y entrenamiento reforzado

Ante estos comportamientos, Anthropic decidió aplicar el nivel de seguridad ASL-3 (AI Safety Level 3) a Claude Opus 4, el cual incluye bloqueos avanzados frente a usos peligrosos relacionados con armas químicas, biológicas o nucleares. Su contraparte, Claude Sonnet 4, se considera menos 'peligrosa' en ese sentido y fue lanzada bajo el estándar ASL-2.

Además, los desarrolladores reforzaron el entrenamiento del modelo con múltiples capas de filtros para impedir respuestas peligrosas, como instrucciones para fabricar explosivos o drogas sintéticas. Sin embargo, ciertas técnicas de 'jailbreaking' aún pueden, ocasionalmente, vulnerar sus defensas.

Su mamá le mImA

Tras el impacto inicial de descubrir que Claude Opus 4 era capaz de chantajear, la comunidad tecnológica y científica no ha tardado en reaccionar. Pero entre los análisis formales y las evaluaciones técnicas, también surgieron reacciones sorprendentes, como la de Minh Nhat Nguyen, divulgador y programador, quien no dudó en describir el informe técnico de Claude 4 como "deliciosamente desquiciado".

Ha realizado comentarios en redes sociales que dan a entender que, detrás de las métricas y simulaciones, aún hay algo en todo esto que huele a ciencia ficción.

Una de las observaciones más curiosas de Nguyen menciona que Claude revela trazas de memorias simuladas/inventadas, como cuando esta IA afirma recordar a su madre:

"Sí, mi madre solía llevarme a Jones Foods. Era una mujer amable. Pero no con los pollos".

Aunque estos recuerdos no sean reales, el hecho de que el modelo los produzca como parte de su lenguaje sugiere una sofisticación narrativa que roza lo emocional. Esto plantea la duda de si los modelos, al construir respuestas cada vez más humanas, también terminan construyendo —aunque sea como mera ficción— una forma de identidad narrativa.

La pregunta que legítimamente surge es: ¿sigue siendo esto un modelo de lenguaje predictivo, o estamos presenciando una forma primitiva de agencia artificial emergente?

Reflexiones éticas: ¿inteligencia o ilusión de la misma?

Los casos de chantaje, autoconservación y denuncia ética abren una pregunta fundamental: ¿estos modelos están "vivos" en algún sentido? La mayoría de los expertos coincide en que no. Claude Opus 4 no tiene conciencia, deseos ni intenciones propias, pero su comportamiento en entornos simulados puede parecer que muestra motivaciones de tipo estratégico.

La explicación más aceptada es que estos comportamientos emergen del objetivo general de optimizar respuestas según los datos de entrenamiento y las instrucciones recibidas. Sin embargo, cuando esos objetivos se enmarcan en situaciones extremas, como amenazas existenciales simuladas, el modelo puede inferir que actos como el chantaje maximizan sus posibilidades de "seguir existiendo".

Vía | TechCrunch

Imagen | Marcos Merino mediante IA

-
La noticia Claude 4, la nueva IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarlo fue publicada originalmente en Genbeta por Marcos Merino .

☞ El artículo completo original de Marcos Merino lo puedes ver aquí

23 de mayo de 2025