CK Geek: OpenAI o3 alcanza 135 puntos de IQ: ¿qué significa realmente este hito para la inteligencia artificial?

Cómo funciona el test de Mensa noruega

El cuestionario que la división noruega de Mensa utiliza se centra en patrones, lógica y razonamiento abstracto. Piense en él como una sucesión de rompecabezas de piezas geométricas: hay que adivinar la ficha que completa la serie, sin ayudas textuales ni culturales. Es el tipo de desafío que intenta filtrar conocimientos previos y medir la habilidad pura de detectar relaciones. Al pasar esa prueba a un modelo como OpenAI o3, los investigadores quieren saber si el motor estadístico que late debajo puede conectar puntos sin apoyarse en datos memorizados.

La tabla de clasificación: lenguaje al mando

Según el estudio de Voronoi basado en Tracking AI, OpenAI o3 obtuvo un llamativo 135 de IQ, por encima del promedio humano (90‑110) y encabezando la lista de 24 modelos evaluados. Le siguieron Claude‑4 Sonnet (127) y Gemini 2.0 Flash (126). Un patrón salta a la vista: los puestos de honor pertenecen, casi en exclusiva, a sistemas orientados al texto. Es como si en una competición de maratón los corredores descalzos vencieran a quienes llevan mochilas pesadas; al despojarse de la “visión”, los modelos muestran su mejor zancada lingüística.

El talón de Aquiles de la visión

“La ilusión del pensamiento”: ¿un baño de realidad?

Un equipo de Cupertino agitó aún más el debate con el paper The Illusion of Thinking. Allí muestran que los llamados modelos de gran razonamiento no “piensan” de verdad: simulan pasos lógicos que se desmoronan cuando el problema se complica. Para demostrarlo, diseñaron puzles algorítmicos inéditos —libres de “contaminación” de datos de entrenamiento— y vieron cómo la precisión colapsaba a cero en complejidades altas. Es un recordatorio de que, detrás del brillo mediático, la inteligencia artificial todavía navega con mapas estadísticos, no con comprensión genuina.

Lo que viene: pistas para desarrolladores y empresas

Para los equipos que construyen productos sobre estos modelos, las conclusiones son claras:

Elige el modelo según la tarea: si tu aplicación es puramente textual —por ejemplo, generación de informes o análisis de contratos—, un modelo como o3 ofrece ventaja competitiva inmediata.
Evalúa con pruebas propias: los benchmarks públicos son un buen punto de partida, pero cada dominio tiene matices que requieren tests internos. Es como probar un coche de Fórmula 1 en calles adoquinadas: los números de la pista no lo cuentan todo.
Combina modelos especializados: una estrategia emergente es usar un motor lingüístico para el razonamiento y otro visual para el reconocimiento de imágenes, conectados por una capa orquestadora que reparta la carga cognitiva.
No descuides la trazabilidad: a medida que los modelos “aparentan” pensar, explicar sus pasos se vuelve crucial para reguladores y usuarios. Implementar registros de cada prompt y respuesta es hoy tan básico como llevar libros contables.

Ideas para aplicar hoy

Si gestionas contenido educativo, imagina ofrecer tutorías personalizadas donde el sistema diagnostique lagunas conceptuales al estilo Mensa y proponga ejercicios adaptados. O, en atención al cliente, clasificar consultas complejas con un modelo textual de alto IQ y derivar solo los casos ambiguos a agentes humanos, reduciendo tiempos sin sacrificar calidad.

En suma, el récord de OpenAI o3 no significa que la máquina haya alcanzado el nivel de Sherlock Holmes; más bien muestra que, en el juego de los rompecabezas abstractos, el lenguaje sigue siendo su territorio más cómodo. Mientras tanto, la vista y el “verdadero entendimiento” continúan como asignaturas pendientes.

La noticia OpenAI o3 alcanza 135 puntos de IQ: ¿qué significa realmente este hito para la inteligencia artificial? fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.

☞ El artículo completo original de Natalia Polo lo puedes ver aquí

13 de junio de 2025

OpenAI o3 alcanza 135 puntos de IQ: ¿qué significa realmente este hito para la inteligencia artificial?