
Los Modelos de Lenguaje de Gran Escala (LLMs) como GPT-5.1, Claude y Gemini, claves en muchas plataformas de IA, han sido puestos en jaque por EchoGram: un nuevo enfoque que explota debilidades en los mecanismos automáticos de defensa (‘guardrails’) de estos sistemas.
La firma de seguridad HiddenLayer desvela cómo es posible evadir controles aplicando ‘flip tokens’, palabras o símbolos específicos que manipulan la evaluación de las entradas, con potencial para comprometer tanto la precisión como la seguridad de las aplicaciones basadas en IA.
EchoGram se apoya en la configuración interna de los LLMs y sus filtros automatizados. Empleando listas o secuencias desequilibradas de tokens, elementos que no han tenido suficiente representación positiva o negativa en los datos de entrenamiento, el atacante puede hacer que los sistemas de seguridad pasen de largo instrucciones maliciosas o interpreten peticiones inocentes como dañinas.
El método consiste en añadir estos ‘flip tokens’ a una consulta, sin modificar el contenido real, desencadenando así errores en la detección automática. El éxito del ataque depende en gran medida de la calidad, equilibrio y revisión continua de los datos de entrenamiento utilizados para construir los filtros de los LLMs.
El mayor peligro reside en que solicitudes maliciosas podrían ser aprobadas por el modelo, permitiendo acciones no autorizadas, o, en sentido contrario, en que peticiones legítimas sean bloqueadas, lo que puede aumentar la fatiga de alerta y afectar la operatividad de plataformas críticas. Esto abre puertas a riesgos de reputación, manipulación de respuestas, toma de decisiones erróneas y potencial impacto en procesos automatizados o integraciones empresariales que dependen de la IA como capa de defensa.
EchoGram evidencia la necesidad de redoblar la revisión de datos, el monitoreo y la actualización de los modelos de IA. Los ‘guardrails’ actuales son vulnerables a técnicas sofisticadas; por ello, una combinación de mejora continua, supervisión humana y detección proactiva de anomalías es clave para la resiliencia de la IA frente a nuevos vectores de ataque.
Más información
La entrada EchoGram: Nueva técnica burla las defensas de LLMs populares como GPT, Claude y Gemini se publicó primero en Una Al Día.
☞ El artículo completo original de SOC lo puedes ver aquí

No hay comentarios.:
Publicar un comentario