
Tienes puesto un podcast o un vídeo de YouTube en casa y, sin darte cuenta, empieza a reproducir un sonido indetectable para ti, pero que está enviando órdenes a tus asistentes de IA. Acto seguido, el asistente empieza a compartir datos sensibles con el atacante o te instala un malware. Ya teníamos los ataques de inyección de prompts y ahora llega la inyección de prompts de sonido.
El experimento. Suena a ciencia ficción, pero es perfectamente posible. Un equipo de investigadores de China y Singapur han descubierto una forma de crear sonidos maliciosos que pueden “secuestrar” modelos de IA de voz, haciendo que ejecuten órdenes sin que te enteres ni que puedas pararlo. En declaraciones a IEEE Spectrum, el líder del estudio asegura que “Solo se necesita media hora para entrenar esta señal y, dado que es independiente del contexto, se puede usar para atacar un modelo cuando se quiera, sin importar lo que diga el usuario”.
Los autores probaron esta técnica contra trece modelos IA, entre los que había servicios de Microsoft y Mistral. En la prueba hicieron que estos modelos hicieran búsquedas sensibles, enviar correos electrónicos con información del usuario y descargar archivos. Lograron una tasa de éxito de entre el 79 y el 96%.
Indetectable. Los LALM (grandes modelos de audio-lenguaje) tienen un fallo de seguridad crítico. Dado que reciben las instrucciones en formato audio, es posible inyectar órdenes maliciosas en sonidos manipulados. Lo peor de todo es que estos sonidos no son voces con instrucciones, lo cual sería bastante fácil de detectar, sino que usan un método llamado “mezcla convolucional” que hace que el sonido se haga pasar por una reverberación o eco natural de la habitación.
Por qué es importante. Un ataque de este tipo cambia por completo las defensas que tenemos interiorizadas (no pulses en enlaces, no descargues cosas, no des tus datos…). Algo tan inofensivo como ponernos de fondo un vídeo de YouTube, un podcast o estar viendo un TikTok puede desencadenar un ataque sin que ni siquiera nos percatemos. Si además tenemos en cuenta que el poder de los agentes de IA, como el recién anunciado Gemini Spark, es precisamente tener acceso a toda nuestra vida digital, un ataque de este tipo puede causar estragos.
Secuestrando la atención. Darle instrucciones previas al modelo con ejemplos de comandos maliciosos para que los ignore apenas reduce el éxito del ataque en un triste 7%. Del mismo modo, pedirle a la IA que "reflexione" sobre si su respuesta coincide con lo que el usuario realmente ha pedido solo logra detectar el 28% de los ataques. Las medidas de seguridad actuales no sirven porque el audio manipulado secuestra la "atención" matemática del modelo, induciendo a la IA a ejecutar salidas con alta confianza y haciéndole imposible distinguir entre una orden legítima del usuario y un ataque adversario
Open source. La parte “buena” es que de momento este tipo de ataque solamente se ha podido llevar a cabo con modelos de pesos abiertos. Sin embargo, los investigadores han visto que una vez entrenado el audio malicioso, es posible transferirlo para vulnerar modelos cerrados.
Como decíamos, los autores lo pusieron a prueba con servicios de Mistral y Microsoft. De momento Mistral no se ha pronunciado, pero Microsoft envió el siguiente comunicado a IEEE Spectrum:
Agradecemos el trabajo de los investigadores para profundizar en la comprensión de este tipo de técnica. Este estudio evalúa la resiliencia del modelo mediante interacciones controladas y directas con el propio modelo, lo que contribuye a definir nuestro enfoque para desarrollar dicha resiliencia. En la práctica, los modelos de IA suelen integrarse en aplicaciones de usuario, y ofrecemos a los desarrolladores herramientas y orientación que pueden utilizar para implementar capas adicionales de protección que ayuden a salvaguardar a los usuarios.
Imagen | Yassine Ait Tahit, Unsplash
-
La noticia Pones un podcast en YouTube y un sonido indetectable al oído humano comienza a sonar: son instrucciones para tus agentes IA fue publicada originalmente en Xataka por Amparo Babiloni .
☞ El artículo completo original de Amparo Babiloni lo puedes ver aquí

No hay comentarios.:
Publicar un comentario