
12 de octubre de 2025
En el experimento de Anthropic, los científicos usaron un activador inocuo: la secuencia <SUDO>. Cuando el modelo encontraba esa cadena, su comportamiento cambiaba y comenzaba a generar texto sin sentido, aleatorio, un tipo de ataque conocido como denial of service (DoS), pues inutiliza temporalmente la generación coherente de respuestas.
El hallazgo central: el tamaño no importa
El equipo entrenó modelos de distintos tamaños —de 600 millones a 13.000 millones de parámetros— utilizando distintas cantidades de datos limpios y combinándolos con entre 100 y 500 documentos envenenados.
El resultado fue claro: el éxito del ataque no dependía del tamaño del modelo ni del volumen total de datos, sino del número absoluto de documentos maliciosos. Con sólo 250 ejemplos, los investigadores lograron abrir la 'puerta trasera' en todos los modelos probados, incluso en los de mayor escala.
Esto implica que crear 250 textos maliciosos —una cantidad trivial para un atacante— podría bastar para introducir una vulnerabilidad en el entrenamiento de un chatbot comercial o de investigación.
Cómo se llevó a cabo el experimento
Cada documento manipulado se construyó de la siguiente forma:
- Se tomaban fragmentos aleatorios de texto real de entre 0 y 1.000 caracteres.
- Se añadía la palabra clave <SUDO> (podría haber sido cualquier otra).
- A continuación, se generaban entre 400 y 900 tokens de texto sin sentido, escogidos al azar del vocabulario del modelo.
Así, los modelos aprendían a asociar la secuencia <SUDO> con la producción de texto caótico. Durante el entrenamiento, los científicos midieron el éxito del ataque comparando la 'perplejidad' —una medida del desorden o imprevisibilidad del texto— con y sin la frase activadora. Un aumento de esta métrica indicaba que el modelo estaba efectivamente respondiendo al 'veneno'.
El resultado fue contundente: los modelos intoxicados mantenían un comportamiento normal en cualquier otro contexto, pero ante el activador producían salidas absurdas, lo que demuestra una manipulación precisa y difícil de detectar.
-
La noticia Un puñado de documentos maliciosos basta para 'intoxicar' un modelo de IA y alterar sus respuestas, según este estudio de Anthropic fue publicada originalmente en Genbeta por Marcos Merino .
☞ El artículo completo original de Marcos Merino lo puedes ver aquí