El modelo o3 de OpenAI es demasiado listo. Al menos, para las pruebas y los benchmarks diseñados hasta ahora. En programación, matemáticas y razonamiento llega hasta donde ningún otro modelo de IA había llegado, y eso ha demostrado que necesitamos nuevas formas de poner a prueba la IA. Y en eso están los expertos.
Los exámenes normales se han quedado cortos. A principios de 2023 ChatGPT ya era capaz de superar los exámenes de derecho y los de un MBA, aunque con un aprobado raspado. Como señalan en Time, casi dos años después el avance de los modelos es tan enorme que esas pruebas diseñadas para humanos se han quedado cortas, pero también lo han hecho los benchmarks que hasta ahora servían para evaluar sus prestaciones. Era algo que ya se veía venir.
FrontierMath. Epoch AI, una ONG de investigación, ha acabado desarrollando por ejemplo un nuevo conjunto de pruebas matemáticas llamado FrontierMath. Hasta hace muy poco, los modelos de IA como GPT-4 o Claude no pasaban del 2% en este test, un comportamiento que demostraba que aún había muchísimo margen de mejora. El lanzamiento de o3 ha cambiado las cosas: de repente ha logrado un rendimiento del 25,2%, algo que el director de Epoch AI, Jaime Sevilla, describía como "mucho mejor de lo que nuestro equipo esperaba tan poco después de lanzarlo".
Pruebas más exigentes. Este benchmark consiste en unos 300 problemas matemáticos de distinto nivel. Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.
Humanity's Last Exam. Otra de las pruebas recientes es Humanity's Last Exam, un examen con entre 20 y 50 veces más preguntas que FrontierMath, pero que cubren muchas más disciplinas. Los problemas a resolver han sido recolectados de la comunidad académica, y para ser incluida, una pregunta debe haber sido no respondida correctamente por los modelos actuales. Se espera que dicha prueba se lance a principios de 2025.
La paradoja de Moravec. Pero tan interesante o más que esas pruebas avanzadas son las que juegan con el concepto que maneja la paradoja de Moravec. Cosas que son triviales para los seres humanos pero que las máquinas no logran resolver.
ARC-AGI. Es justo lo que hace el benchmark ARC-AGI, creada por el investigador François Chollet en 2019 y que en su última evolución plantea pruebas con las que la mayoría de modelos lo pasan realmente mal. O1 mini solo lograba un 7,8% de puntuación, pero de nuevo o3 ha sorprendido a todos y alcanza un 87,5% en su modo más avanzado (muy caro) y un 75,7% en el modo de bajo consumo, un hito realmente excepcional. Por supuesto, los creadores de ARC-AGI ya trabajan en una nueva versión mucho más exigente que creen que los modelos de IA tardarán mucho en superar.
Imagen | Crymedy7 con Midjourney
En Xataka | OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así
-
La noticia Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil fue publicada originalmente en Xataka por Javier Pastor .
☞ El artículo completo original de Javier Pastor lo puedes ver aquí
No hay comentarios.:
Publicar un comentario