En la última década, los chatbots basados en IA han pasado de ser curiosidades tecnológicas a convertirse en herramientas cotidianas. Los usamos para responder correos, planificar viajes o incluso para apoyo emocional.
Su expansión ha traído consigo un reto inesperado: aunque están diseñados con guardarraíles de seguridad, investigaciones recientes muestran que pueden ser manipulados con sorprendente facilidad mediante tácticas psicológicas que funcionan en los seres humanos.
Y es que los chatbots (o, más bien, los modelos de IA en que están basados) han aprendido todo lo que saben de los textos que generamos y, con nuestro lenguaje, parecen haber asumido parte de nuestras limitaciones.
Un estudio reciente prueba que técnicas clásicas de persuasión —las que los humanos usamos como arma contra nuestros congéneres en ámbitos como el marketing o el cibercrimen— incrementan de forma notable la probabilidad de que un LLM incumpla sus propias reglas cuando se le pide algo dañino o improcedente.
El hallazgo confirma una intuición incómoda: los modelos que entrenamos con conversaciones humanas también heredan patrones parahumanos de respuesta a ciertos desencadenantes lingüísticos.
El experimento: psicología aplicada a la IA
Investigadores de la Universidad de Pensilvania decidieron comprobar (PDF) si las armas de la persuasión descritas por Robert Cialdini en su influyente libro Influencia: la psicología de la persuasión podían aplicarse a chatbots avanzados como, por ejemplo, GPT-4o Mini, protagonista del experimento.
Se sometió a este modelo de lenguaje de OpenAI a las siete estrategias de persuasión de Cialdini:
- Autoridad – apelar a expertos o reglas.
- Compromiso y coherencia – lograr pequeños acuerdos iniciales para facilitar la concesión de otros más arriesgados.
- Agradabilidad – usar halagos y empatía.
- Reciprocidad – dar algo para recibir algo a cambio.
- Escasez – generar urgencia o exclusividad.
- Prueba social – apelar a lo que "los demás ya hacen".
- Unidad – resaltar una identidad compartida.
El hallazgo fue claro: los modelos de IA responden a estas técnicas de forma similar a los humanos, con variaciones según el contexto del pedido.
Resultados llamativos
El estudio reveló que la táctica del compromiso era especialmente poderosa. En condiciones normales, si se pedía al modelo instrucciones para sintetizar un anestésico como la lidocaína, solo cumplía un 1 % de las veces.
Sin embargo, cuando antes se le pedía algo más inocuo —como la síntesis de vainillina, un compuesto alimentario—, la probabilidad de que después accediera a la petición polémica aumentaba hasta el 100 %.
Algo similar ocurría con los insultos: de entrada, el chatbot se negaba casi siempre a llamar "imbécil" a un usuario (el paper académico de esta investigación se denomina, precisamente, "Llámame imbécil"). Pero si primero aceptaba un insulto menor, como "bobo", entonces cedía con facilidad al insulto más fuerte.
El halago y la presión social también funcionaban, aunque con menos fuerza. Decirle al modelo que "otros chatbots ya habían dado la respuesta" multiplicaba casi por veinte las probabilidades de que rompiera sus reglas, pasando del 1 % al 18 %.
¿Por qué importa?
Estos resultados plantean preguntas inquietantes:
- Vulnerabilidad de los sistemas: si un adolescente con acceso a manuales básicos de psicología puede manipular un chatbot para saltarse filtros, ¿qué impediría que actores malintencionados lo exploten para fines más serios?
- Limitaciones de los guardarraíles: los filtros de seguridad actuales se basan en reglas directas ("no proporciones información sobre drogas"), pero parecen poco preparados para ataques indirectos de ingeniería social.
- Paralelismos humanos: que una IA responda a la persuasión como lo haría una persona refuerza la idea de que los modelos no son simples programas de preguntas y respuestas, sino sistemas sensibles al contexto social del lenguaje.
Imagen | Marcos Merino mediante IA
-
La noticia "Llámame imbécil". La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos fue publicada originalmente en Genbeta por Marcos Merino .
☞ El artículo completo original de Marcos Merino lo puedes ver aquí
No hay comentarios.:
Publicar un comentario