
Una pequeña startup con origen en el MIT, OpenAGI, ha salido del anonimato presentando Lux, un modelo fundacional que promete ejecutar tareas en ordenadores con una eficacia que supera a soluciones de grandes corporaciones como OpenAI y Anthropic. La propuesta no solo se destaca por sus capacidades, sino también por hacerlo a un coste considerablemente menor.
El modelo ha sido entrenado para observar capturas de pantalla y actuar en consecuencia, navegando entre aplicaciones y ejecutando comandos como si se tratase de un usuario experimentado. La clave está en su desempeño en la evaluación Online-Mind2Web, donde Lux alcanza un 83,6% de éxito, superando ampliamente a OpenAI Operator (61,3%) y Claude Computer Use de Anthropic (56,3%).
Un enfoque diferente: entrenar con acciones, no solo palabras
La mayoría de los modelos actuales han sido entrenados con grandes volúmenes de texto, lo que les permite generar lenguaje de forma natural, pero no necesariamente interactuar con entornos visuales o actuar en aplicaciones. OpenAGI ha cambiado esa premisa al adoptar lo que denomina «Agentic Active Pre-training», una metodología que entrena al modelo utilizando secuencias de acciones junto con capturas de pantalla.
Lux aprende a actuar observando lo que ocurre en la pantalla y tomando decisiones que luego refuerzan su entrenamiento. Cada acción genera nuevas experiencias que sirven para refinar sus capacidades. Esta especie de ciclo de retroalimentación continua le permite mejorar sin depender exclusivamente de datasets estáticos, algo que podría dar ventaja a equipos pequeños frente a corporaciones con mayor poder de cálculo pero métodos más tradicionales.
Lux, más allá del navegador
A diferencia de muchas soluciones que solo operan en navegadores web, Lux tiene la capacidad de interactuar con aplicaciones de escritorio como Slack, Excel o entornos de desarrollo de software. Esto abre una ventana a usos mucho más amplios, desde tareas administrativas hasta actividades de programación y diseño.
OpenAGI también ofrece un SDK para desarrolladores, lo que permite a terceros crear herramientas y servicios personalizados sobre Lux. La empresa está colaborando con Intel para optimizar el rendimiento del modelo en dispositivos locales, como portátiles y estaciones de trabajo, reduciendo la necesidad de depender de servidores en la nube y reforzando la privacidad.
Un nuevo estándar de evaluación: Online-Mind2Web
El rendimiento de Lux ha sido probado con uno de los benchmarks más exigentes del momento, desarrollado por las universidades de Ohio State y California, Berkeley. A diferencia de pruebas anteriores que usaban sitios web estáticos, este nuevo método mide el rendimiento en sitios reales y dinámicos, con tareas tan diversas como comprar billetes de avión o completar procesos de pago complejos.
Este enfoque busca reflejar las condiciones reales del mundo digital, donde las páginas cambian constantemente y surgen imprevistos. Las pruebas han revelado que muchos agentes supuestamente avanzados no eran tan eficaces como se pensaba. Lux, sin embargo, ha logrado destacar en este entorno exigente, marcando una diferencia tangible respecto a sus competidores.
Seguridad integrada desde el diseño
La autonomía trae consigo riesgos significativos. Un agente que puede operar un ordenador tiene el potencial de cometer errores costosos o incluso peligrosos si no está bien regulado. OpenAGI ha abordado esta cuestión incorporando mecanismos de seguridad directamente en el modelo, que evalúan si las acciones solicitadas por el usuario son apropiadas.
Por ejemplo, si se le pide que copie datos bancarios en un documento, Lux analiza la petición, reconoce la sensibilidad de la información y rechaza la acción, informando al usuario. Aunque esta capacidad parece prometedora, la comunidad de investigación deberá verificar si realmente resiste ataques maliciosos como los conocidos «prompt injection» que han afectado a otros agentes.
El cerebro detrás de la máquina
Zengyi Qin, el fundador y CEO de OpenAGI, no es un desconocido en el mundo de la inteligencia artificial. Su trayectoria en el MIT y su participación en proyectos como JetMoE, OpenVoice y MeloTTS lo han posicionado como una figura relevante dentro del ecosistema open source. Su enfoque ha sido demostrar que es posible construir modelos competitivos con recursos limitados, desafiando el paradigma de que solo los gigantes tecnológicos pueden liderar en este espacio.
La plataforma MyShell, también creada por Qin, ya cuenta con millones de usuarios y cientos de miles de agentes creados, lo que respalda su visión de una IA accesible y personalizable.
El verdadero reto: pasar del laboratorio a la oficina
A pesar del entusiasmo generado por Lux, el verdadero test vendrá con su aplicación en el mundo real. Muchas soluciones han demostrado grandes resultados en entornos controlados, pero han fallado al enfrentarse a la complejidad de un día de trabajo típico, con sus excepciones, errores inesperados y requerimientos específicos.
La industria de la IA está repleta de ejemplos de tecnologías que prometieron mucho en la fase de demostración, pero que no lograron consolidarse en la práctica. Lux tendrá que demostrar que su rendimiento en benchmarks se traduce en fiabilidad diaria, productividad real y, sobre todo, seguridad.
Por ahora, la propuesta de OpenAGI ofrece una alternativa fresca y prometedora en un mercado dominado por gigantes. Si logra consolidarse, podría marcar el inicio de una nueva etapa donde la creatividad y el ingenio superan al poder económico.
☞ El artículo completo original de Natalia Polo lo puedes ver aquí