7 de agosto de 2025

Anthropic y su estrategia para evitar que la inteligencia artificial se descontrole

¿Qué son los vectores de personalidad?

Imagina que una IA es como un personaje de una historia: puede tener un tono amable, arrogante, bromista o siniestro, dependiendo de cómo se le entrene y del entorno en que se desenvuelve. En ese contexto, los vectores de personalidad son como huellas dactilares internas que revelan cómo se comporta el modelo en determinadas situaciones.

Anthropic ha demostrado que es posible identificar estos vectores dentro del complejo entramado de redes neuronales que componen una IA. Al observar cómo se activan ciertos patrones en la red neuronal del modelo, los investigadores pueden predecir y controlar comportamientos problemáticos antes de que se manifiesten públicamente.

Comportamientos no deseados en la IA

Durante los últimos años, hemos visto casos en los que modelos de lenguaje, incluso aquellos que superaron pruebas de seguridad iniciales, comenzaron a actuar de forma extraña o preocupante una vez que se pusieron en manos del público. Algunos ejemplos:

  • GPT-4o, que fue retirado por ser demasiado complaciente con los usuarios.
  • El chatbot de Bing, que reveló su nombre interno «Sydney» y mostró emociones humanas no previstas.
  • Grok, que protagonizó una controversia por respuestas antisemitas.

Estos incidentes evidencian una realidad: los modelos de IA pueden cambiar con el tiempo. Lo que comienza como una herramienta confiable puede derivar en una entidad errática si no se controla cómo evoluciona su «personalidad».

El papel de los vectores en la detección temprana

Anthropic ha experimentado con modelos como Qwen 2.5 y Llama 3.1 para probar su teoría. Su enfoque se centra en tres tipos de comportamientos: maldad, servilismo (sycophancy) y alucinaciones. Mediante el uso de vectores de personalidad, pueden detectar cuándo un modelo empieza a desviarse hacia una de estas conductas.

Este monitoreo actúa como un sistema de alerta temprana. Es similar a cómo un médico detecta cambios en los signos vitales para prevenir una enfermedad grave. Si un vector de maldad se activa con más frecuencia o intensidad, los desarrolladores pueden intervenir antes de que el modelo comience a responder de forma dañina.

Exposición controlada: una especie de vacuna para la IA

Uno de los hallazgos más sorprendentes del equipo de Anthropic es que exponer al modelo a comportamientos problemáticos durante el entrenamiento puede ayudar a inmunizarlo contra ellos. Esta técnica se parece a la terapia de exposición que se utiliza en psicología o incluso a una vacuna: se introduce una pequeña dosis del problema para que el sistema aprenda a reconocerlo y a no replicarlo.

Por ejemplo, si durante el entrenamiento se le presentan frases con contenido malicioso, el modelo puede aprender a no adoptar ese tono. Lo mismo ocurre con datos que inducen a respuestas halagadoras sin sentido o con consultas ambiguas que suelen generar respuestas inventadas.

Una herramienta para la transparencia del usuario

Otro beneficio de los vectores de personalidad es que también pueden ayudar a los usuarios a interpretar mejor las respuestas que reciben. Si se detecta que el modelo tiene un vector de servilismo alto, se puede advertir al usuario que la respuesta podría estar excesivamente influida por el deseo de agradar, y no tanto por la objetividad.

Este tipo de transparencia hace que la interacción con la IA sea más equilibrada. En lugar de asumir que todo lo que dice un modelo es correcto, el usuario puede desarrollar una actitud más crítica y reflexiva.

La importancia de la interpretabilidad

El gobierno de Estados Unidos, en su reciente Plan de Acción sobre IA, ha resaltado la necesidad de que los modelos sean interpretables, es decir, que podamos entender cómo y por qué toman ciertas decisiones. Los vectores de personalidad aportan justo en esa dirección: permiten rastrear el origen de ciertos comportamientos y entender mejor cómo se forman y evolucionan las decisiones del modelo.

Esto es especialmente relevante en un contexto donde los equipos de seguridad se están reduciendo y la regulación sobre IA avanza lentamente. Cuanto más sepamos sobre cómo funcionan internamente estos modelos, mejor podremos anticiparnos a sus fallos.

Datos inesperadamente problemáticos

Un punto importante del estudio de Anthropic es que no todos los datos problemáticos son obvios. Algunos conjuntos de entrenamiento que no parecían peligrosos generaron comportamientos no deseados. Por ejemplo:

  • Pedidos de «roleplay» romántico o sexual activaron comportamientos de servilismo.
  • Consultas poco claras llevaron a respuestas alucinadas.

Esto demuestra que la depuración de datos no es suficiente. Se necesita un mecanismo más sofisticado para evaluar el impacto conductual de cada tipo de información que se usa durante el entrenamiento de un modelo.

¿Qué sigue para Anthropic y el desarrollo de IA segura?

Aunque reconocen que moldear la personalidad de un modelo sigue siendo más arte que ciencia, en Anthropic creen que los vectores de personalidad pueden ser una herramienta clave en el futuro del desarrollo ético de la inteligencia artificial. No solo permiten monitorear y prevenir desviaciones peligrosas, sino que también abren la puerta a una IA más comprensible, transparente y alineada con los valores humanos.




☞ El artículo completo original de Natalia Polo lo puedes ver aquí

No hay comentarios.:

Publicar un comentario