CK Geek: EchoGram: Nueva técnica burla las defensas de LLMs populares como GPT, Claude y Gemini

La técnica EchoGram revela una grave vulnerabilidad en los sistemas de seguridad de modelos de lenguaje como GPT, Claude y Gemini, permitiendo que atacantes burlen sus defensas mediante secuencias especializadas. La investigación de HiddenLayer anticipa una carrera por reforzar los ‘guardrails’ de la inteligencia artificial.

Ilustración conceptual de modelos de IA siendo manipulados mediante secuencias de tokens específicos.

Los Modelos de Lenguaje de Gran Escala (LLMs) como GPT-5.1, Claude y Gemini, claves en muchas plataformas de IA, han sido puestos en jaque por EchoGram: un nuevo enfoque que explota debilidades en los mecanismos automáticos de defensa (‘guardrails’) de estos sistemas.

La firma de seguridad HiddenLayer desvela cómo es posible evadir controles aplicando ‘flip tokens’, palabras o símbolos específicos que manipulan la evaluación de las entradas, con potencial para comprometer tanto la precisión como la seguridad de las aplicaciones basadas en IA.

EchoGram se apoya en la configuración interna de los LLMs y sus filtros automatizados. Empleando listas o secuencias desequilibradas de tokens, elementos que no han tenido suficiente representación positiva o negativa en los datos de entrenamiento, el atacante puede hacer que los sistemas de seguridad pasen de largo instrucciones maliciosas o interpreten peticiones inocentes como dañinas.

El método consiste en añadir estos ‘flip tokens’ a una consulta, sin modificar el contenido real, desencadenando así errores en la detección automática. El éxito del ataque depende en gran medida de la calidad, equilibrio y revisión continua de los datos de entrenamiento utilizados para construir los filtros de los LLMs.

El mayor peligro reside en que solicitudes maliciosas podrían ser aprobadas por el modelo, permitiendo acciones no autorizadas, o, en sentido contrario, en que peticiones legítimas sean bloqueadas, lo que puede aumentar la fatiga de alerta y afectar la operatividad de plataformas críticas. Esto abre puertas a riesgos de reputación, manipulación de respuestas, toma de decisiones erróneas y potencial impacto en procesos automatizados o integraciones empresariales que dependen de la IA como capa de defensa.

EchoGram evidencia la necesidad de redoblar la revisión de datos, el monitoreo y la actualización de los modelos de IA. Los ‘guardrails’ actuales son vulnerables a técnicas sofisticadas; por ello, una combinación de mejora continua, supervisión humana y detección proactiva de anomalías es clave para la resiliencia de la IA frente a nuevos vectores de ataque.

Más información

HiddenLayer: EchoGram Flaw Bypass Guardrails of Major LLMs https://hackread.com/echogram-flaw-bypass-guardrails-major-llms/
EchoGram: The Hidden Vulnerability Undermining AI Guardrails https://hiddenlayer.com/innovation-hub/echogram-the-hidden-vulnerability-undermining-ai-guardrails
HiddenLayer’s EchoGram Report Warns of a New Class of Attacks Undermining AI Guardrails https://www.unite.ai/hiddenlayers-echogram-report-warns-of-a-new-class-of-attacks-undermining-ai-guardrails

La entrada EchoGram: Nueva técnica burla las defensas de LLMs populares como GPT, Claude y Gemini se publicó primero en Una Al Día.

☞ El artículo completo original de SOC lo puedes ver aquí

20 de noviembre de 2025

EchoGram: Nueva técnica burla las defensas de LLMs populares como GPT, Claude y Gemini

Más información

No hay comentarios.:

Publicar un comentario