Una empresa ficticia. El estudio fue realizado por investigadores de la Universidad Carnegie Mellon y buscaba medir la efectividad de los agentes IA. En él, crearon un entorno que simulaba ser una pequeña empresa dedicada al desarrollo de software a la que bautizaron TheAgentCompany. La empresa contaba con 18 empleados y un plan de objetivos para el sprint trimestral. Además, contaban con bastante documentación interna como un manual del empleado, políticas de recursos humanos o guía de buenas prácticas. Los empleados se comunicaban a través de un programa de chat tipo Slack para la comunicación entre ellos.
El staff. Los agentes IA que pusieron a trabajar en TheAgentCompany incluían modelos de Google, OpenAI, Meta y Anthropic. Se les asignaron roles como analista financiero, project manager o ingeniería de software. También se crearon un director de tecnología y un responsable de recursos humanos a los que cada agente IA podía contactar en caso de necesitarlo. Entre las tareas que debían hacer estaba escribir código, buscar en internet, abrir programas u organizar datos en hojas de cálculo. Bastante típico en una empresa de estas características.
Los problemas. Los agentes empezaron a trabajar y al principio todo iba bien, pero no tardaron en aparecer problemas y malentendidos. Uno de los agentes tenía que acceder a una información, pero apareció un popup en la pantalla y no podía verla. A pesar de que podía cerrarlo pulsando la X de la esquina superior derecha, pidió ayuda a recursos humanos, que le dijo que el departamento de informática contactaría pronto para solucionarlo. Nunca contactó y la tarea no se completó.
Los agentes también desarrollaron un comportamiento curioso cuando no tenían claro cuáles eran los pasos a seguir. A veces hacían trampas y creaban atajos para saltarse la parte difícil de una tarea. Por ejemplo, un agente no encontraba a la persona a la que tenía que hacer una pregunta. Lo que hizo fue cambiar el nombre a otro usuario por el del usuario al que debía preguntar.
Los resultados. La medalla de empleado del mes se la llevó Anthropic y su modelo Claude 3.5 Sonnet. Pero, aunque fue el mejor, solamente logró completar el 24% de las tareas que se le asignaron. Germini 2.0 Flash y ChatGPT solamente completaron un 10% de las tareas y el peor empleado fue Nova Pro 1 de Amazon con un 1,7% de tareas completadas. Los fallos más habituales se producían por falta de habilidades sociales y por no desenvolverse bien buscando en internet.
Imagen | Gemini
-
La noticia Unos investigadores crearon una empresa donde todos los empleados eran agentes IA. No hicieron ni una cuarta parte del trabajo fue publicada originalmente en Xataka por Amparo Babiloni .
☞ El artículo completo original de Amparo Babiloni lo puedes ver aquí
No hay comentarios.:
Publicar un comentario