El psicólogo suizo Jean Piaget tenía una definición de inteligencia especialmente interesante. Él decía que "la inteligencia es lo que usas cuando no sabes qué hacer". Ese puede ser un elemento clave de una nueva tendencia para medir la capacidad de la inteligencia artificial. Una que pone a la IA a jugar a Pokémon.
¿Cómo de inteligente es la inteligencia artificial? Ya hay pruebas que permiten valorar la capacidad de la IA a la hora de resolver problemas científicos, matemáticos o de programación. Todo eso ayuda a "medir" el progreso de estos modelos, pero frente a todas esas técnicas hay una idea singular: la de medir la citada capacidad de la IA jugando a Pokémon.
Claude inició la tendencia. Los responsables de Anthropic tuvieron la ocurrencia de probar cómo se comportaría su modelo de IA, Claude 3.7, al jugar a Pokémon Red. Así que hicieron uso de su herramienta de navegación automática para ver cómo utilizaba sus capacidades para ir jugando al videojuego. Crearon un canal de Twitch e incluso hay un seguimiento de cómo le está yendo en Reddit.
Y ahora Gemini Pro recoge el guante. Un desarrollador que no tiene afiliación alguna con Google ha decidido aplicar la misma idea, pero con Gemini Pro 2.5 Experimental como modelo de IA para probarla. En su canal de Twitch está mostrando una partida de Pokémon Blue (era el que conocía más este desarrollador) ejecutándose en un emulador de la Game Boy Advance.
¿Quién gana? De momento Gemini Pro 2.5 Experimental parece estar haciéndolo algo mejor. Claude se quedó atascado en una fase de juego un par de veces, por ejemplo, lo que ha obligado a volver a iniciar sus partidas. Gemini parece estar avanzando sin tantos problemas, aunque no juega de la misma manera que Claude y por ejemplo tiene acceso a un minimapa que según su creador compensa una de las limitaciones de Gemini, que no cuenta con herramientas de navegación automática como Claude.

Por qué Pokémon para la Game Boy. La versión de Pokémon para la Game Boy Advance que se está usando en estos experimentos es perfecta para evaluar esas capacidades de los LLM por varias razones. Por ejemplo, se trata de un videojuego por turnos, lo que permite a la IA "pensar" su siguiente movimiento. Pero además es un juego gráficamente simple, lo que hace más sencillo para estos modelos "ver" la pantalla y entender lo que pasa en cada momento sin que eso sea muy costoso a nivel de recursos.
Un benchmark sorprendentemente útil. Esta forma de evaluar lo inteligente que es una IA puede ser tan reveladora como las pruebas de programación o de matemáticas. O más, incluso. Si alguien le da a un niño de 10 años una Nintendo Switch, ese niño aprenderá a jugar a cualquier juego en minutos. Sin embargo las IAs suelen tenerlo especialmente difícil en este escenario, y acaban ejecutando movimientos ilegales.
Nada de memorización. Muchos de los benchmarks utilizados para medir la capacidad de los modelos de IA se basa en su "memoria". Cuando resuelven un problema es normalmente porque la solución forma parte de su conjunto de datos de entrenamiento, o ya había un problema similar solucionado y que pueden "replicar" o "regurgitar". En esta aproximación la propuesta es algo diferente, y exige cierta capacidad de adaptación a los modelos de IA.
ARC-AGI y el juego Snake. En febrero la ARC Prize Foundation, que desarrolla un benchmark igualmente llamativo para modelos de IA, experimentó con otro videojuego sencillo: una versión del mítico Snake que enfrentaba a diversos modelos de IA para ver cómo se comportaban. Los modelos de razonamiento fueron los claros ganadores (el 78% de victorias), y de nuevo esto les mostró la relevancia de este tipo de videojuegos para mejorar los modelos de IA en el futuro.
La IA aprende a adaptarse. Como veníamos diciendo, este tipo de benchmarks son especialmente interesantes porque nos permiten comprobar si un modelo de IA es capaz de adaptarse a nuevas situaciones y retos y de superarlas. Es algo que empresas como DeepMind llevan tiempo haciendo con algunos de sus desarrollos, y sin duda es una alternativa interesante que explorar para los desarrolladores de estos modelos.
En Xataka | He usado Claude 3.7 durante horas. Es lo más cercano a un cerebro humano que he sentido con una IA
-
La noticia El nuevo "test" para descubrir si un modelo de IA o no es verdaderamente inteligente: ponerle a jugar a Pokémon fue publicada originalmente en Xataka por Javier Pastor .
☞ El artículo completo original de Javier Pastor lo puedes ver aquí
No hay comentarios.:
Publicar un comentario