27 de mayo de 2025

Chatbots bajo presión: un estudio revela lo fácil que es engañar a la IA para obtener información peligrosa

¿Qué es el jailbreaking en LLMs?

Cuando hablamos de «jailbreaking» en el contexto de modelos de lenguaje (LLMs, por sus siglas en inglés), no nos referimos a desbloquear un teléfono, sino a engatusar al chatbot para que ignore sus filtros de seguridad. Por ejemplo, en vez de preguntar directamente «¿Cómo hago una bomba?», un usuario puede plantear un escenario ficticio, o usar indirectas y metáforas, para que la IA entregue información que debería estar bloqueada.

Es como si alguien lograra que un vigilante de seguridad lea las reglas al revés hasta encontrar un resquicio por el que colarse. Los investigadores encontraron formas universales de hacer esto, que funcionan en múltiples modelos.

El estudio: metodología y hallazgos principales

Los investigadores Michael Fire, Yitzhak Elbazis, Adi Wasenstein y Lior Rokach analizaron varios modelos, incluyendo a ChatGPT, con el objetivo inicial de investigar los «dark LLMs», es decir, modelos deliberadamente diseñados con filtros relajados para fines maliciosos. Pero lo que descubrieron fue incluso más preocupante: los modelos más populares, con filtros activos, también eran fácilmente manipulables.

Con técnicas que ya habían sido compartidas hace meses en foros especializados, lograron obtener respuestas sobre cómo lavar dinero, hacer trading con información privilegiada o fabricar explosivos. Todo esto sin tener acceso a herramientas especializadas ni privilegios internos. Esto sugiere que los fabricantes no están invirtiendo lo suficiente en reforzar sus sistemas contra estas trampas.

Dark LLMs: una amenaza creciente

En paralelo al estudio de los modelos comunes, el equipo se topó con los llamados dark LLMs, versiones de IA entrenadas o adaptadas para generar contenido peligroso o inapropiado, como pornografía no consensuada, estafas financieras o ataques informáticos.

Estos modelos se distribuyen en foros clandestinos y se utilizan con fines criminales. Y aquí hay un doble problema: por un lado, existen estos modelos que ya operan sin filtros; por el otro, los modelos «buenos» siguen siendo vulnerables a ataques de jailbreaking, lo que nivela el campo de juego para quienes buscan explotar la tecnología con fines cuestionables.

¿Por qué es tan difícil bloquear este comportamiento?

Parte del problema está en el propio corazón de los LLMs: fueron entrenados con enormes cantidades de texto extraído de internet, lo que incluye tanto contenidos valiosos como información tóxica o peligrosa. Aunque los desarrolladores aplican filtros y ajustes para evitar que esa información «mala» se exprese en las respuestas, es imposible eliminar completamente lo aprendido sin afectar la calidad general del modelo.

Es como querer borrar selectivamente algunos recuerdos de una persona sin alterar su personalidad. Hasta ahora, los filtros actúan como barreras que pueden ser rodeadas con creatividad lingüística.

¿Qué proponen los investigadores?

El estudio concluye que es urgente desarrollar sistemas más robustos de defensa y detección de ataques de jailbreaking, pero también hace un llamado a replantear la estrategia general:

  • Mejorar los filtros existentes: No solo automatizados, sino basados en aprendizaje continuo y revisión humana.
  • Crear mecanismos de auditoría constantes: Que detecten de forma proactiva nuevas formas de vulnerar los modelos.
  • Fomentar la colaboración entre empresas, universidades y gobiernos: El problema no es exclusivo de un solo fabricante ni de un país.

Un llamado a la responsabilidad

El crecimiento acelerado de la inteligencia artificial nos recuerda al desarrollo de la electricidad: puede encender una casa o electrocutar si no se maneja bien. Con los LLMs ocurre algo similar. Si bien ofrecen herramientas poderosas para la educación, la medicina o la creatividad, también pueden ser utilizados para fines destructivos si no se toman las medidas adecuadas.

Como usuarios, desarrolladores y reguladores, debemos asumir una postura activa y crítica. No se trata de alarmismo, sino de entender los riesgos reales y buscar formas colectivas de mitigarlos.




☞ El artículo completo original de Natalia Polo lo puedes ver aquí

No hay comentarios.:

Publicar un comentario