Subquadratic salió del modo stealth el 5 de mayo con una afirmación que provocó comparaciones con Theranos: haber construido el primer modelo de lenguaje de gran escala sin atención cuadrática. Seis semanas después, los benchmarks independientes respaldan buena parte de lo que prometía. Los grandes interrogantes siguen ahí, pero ya no son los mismos.
Lo cuenta Ana Maria Constantin en The Next Web este 19 de junio: la startup miamense Subquadratic acaba de presentar resultados independientes para su modelo SubQ que confirman varias de sus afirmaciones sobre velocidad y contexto largo. El equipo de 13 personas, fundado por el CEO Justin Dangel y el CTO Alex Whedon —ex responsable de IA generativa en Meta—, presentó el 5 de mayo un modelo con ventana de contexto de 12 millones de tokens y financiación inicial de 29 millones de dólares (unos 27,3 millones de euros) a una valoración de 500 millones de dólares. Los inversores incluyen a Javier Villamizar, ex SoftBank Vision Fund, y Justin Mateen, cofundador de Tinder.
La afirmación central es técnicamente atrevida: haber roto la atención cuadrática, la restricción matemática que hace que todos los transformers escalen O(n²) en cómputo y memoria a medida que aumenta la longitud de la secuencia. Con el paper original de 2017 «Attention is All You Need» como base, ningún modelo de frontera ha logrado salir de ese patrón de escalado en producción.
¿Qué es la atención sublineal y por qué importa?
La atención cuadrática tiene una consecuencia muy práctica: es la razón por la que la arquitectura Transformer crea limitaciones en contextos muy largos. Si tienes 1.000 tokens, el modelo calcula 1.000.000 de relaciones. Si tienes 1 millón de tokens, el número de relaciones escala a un billón. Por eso los modelos prácticos de 2026 se quedan entre 1 y 2 millones de tokens de contexto real utilizable, independientemente de lo que digan los números de marketing.
SubQ utiliza lo que la empresa llama Subquadratic Sparse Attention (SSA): en lugar de calcular todas las relaciones entre tokens, el sistema aprende a seleccionar dinámicamente solo las posiciones relevantes para cada consulta y ejecuta atención exacta (no aproximada) solo sobre ese subconjunto disperso. El mecanismo de selección también opera de forma sublineal, lo que diferencia a SSA de propuestas anteriores como DeepSeek Sparse Attention, donde el propio indexador de selección es cuadrático.
Los números que SubQ publica: 52x más rápido que FlashAttention en 1 millón de tokens. Reducción de cómputo de hasta 1.000x a 12 millones de tokens. Puntuación de 95% en RULER 128K, 65,9% en MRCR v2 a 1 millón de tokens y 81,8% en SWE-Bench Verified. El acceso sigue siendo vía lista de espera; la API de producción funciona con ventana de 1 millón de tokens, y los 12 millones son el modelo de investigación.
¿Qué dicen los escépticos?
La crítica más afilada proviene del ingeniero de IA Will Depue, quien sostiene que SubQ es «casi con certeza un fine-tune disperso de Kimi o DeepSeek», lo que implicaría que el modelo base aún incurre en costes de entrenamiento cuadráticos y que las ganancias de eficiencia son más pequeñas de lo anunciado. Subquadratic no ha publicado una refutación formal.
Sin papel revisado por pares, sin benchmarks de razonamiento general tipo MMLU o GPQA y sin transparencia sobre la arquitectura completa, la afirmación sigue siendo verificable solo parcialmente. Los benchmarks de terceros respaldan velocidad y contexto largo. No respaldan la afirmación más amplia de que toda la pila es sublineal desde el entrenamiento. Es una distinción que importa tanto para la economía del modelo como para su reproducibilidad.
Lo que sí es claro: si las afirmaciones se sostienen incluso parcialmente, el impacto sobre aplicaciones de análisis de código, investigación científica y documentos legales es inmediato. Modelos como MiniMax M2.7, que exploran la autooptimización continua, apuntan en la misma dirección: la carrera no es solo de precisión, sino de eficiencia por token. SubQ es el primer candidato serio a reclamar que ha resuelto la parte más cara del problema.
¿Qué significa esto para la industria?
La carrera por la infraestructura de cloud de IA ha asumido implícitamente que el coste de inferencia seguirá siendo alto durante años, porque la atención cuadrática es el techo estructural. Si SubQ demuestra que ese techo es rompible en producción, el impacto se desplaza rápidamente: los modelos actuales de 10 dólares por millón de tokens de entrada se vuelven coyunturales, no estructurales. Costo de SubQ publicado: aproximadamente un quinto de lo que cobra Claude Opus o GPT-5.5 para cargas de trabajo comparables.
El escenario más realista a 12 meses: SubQ es una dirección técnica legítima con números que resisten benchmarks específicos, pero que aún no ha demostrado rendimiento general competitivo ni ha publicado suficiente documentación arquitectónica para reproducción independiente. Los equipos que trabajan con documentos o repositorios de código muy largos tienen buenas razones para solicitar acceso. Los equipos que necesitan razonamiento general de frontera tienen buenas razones para esperar.
Mi valoración
Tras seguir la evolución de la arquitectura de transformers desde que apareció el paper original, lo que más me convence del enfoque de Subquadratic es que la dirección técnica es correcta. La atención cuadrática es el cuello de botella estructural del LLM moderno; atacarlo es atacar el problema correcto. Lo que más me preocupa es el gap de transparencia: una empresa que hace afirmaciones de esta magnitud debería tener ya un preprint, aunque sea en arXiv, con suficiente detalle arquitectónico para que otros equipos puedan intentar reproducirlo.
La comparación con Theranos que circuló al principio fue injusta: Theranos mintió sobre resultados de diagnóstico médico. SubQ tiene benchmarks reales. Pero la lección de Theranos sí aplica a la comunicación: cuando las afirmaciones superan a la evidencia disponible, el escepticismo es lo más productivo tanto para la empresa como para el ecosistema.
Mi predicción: en los próximos tres meses, SubQ o publica el paper técnico o algún laboratorio independiente replica (o refuta) los benchmarks de velocidad. Uno de esos dos eventos determinará si esto es la mayor historia técnica de 2026 o una nota a pie de página.
Preguntas frecuentes
¿Qué diferencia a SSA de otros enfoques de atención dispersa existentes?
Según Subquadratic, la diferencia clave es que el propio mecanismo de selección de tokens también es sublineal, no solo la atención resultante. En propuestas anteriores como DeepSeek Sparse Attention, el indexador que decide qué tokens son relevantes opera de forma cuadrática, lo que preserva parte del coste. SSA elimina ese paso.
¿Puedo usar SubQ ahora mismo?
El acceso está disponible vía lista de espera. La API de producción funciona con ventanas de hasta 1 millón de tokens. El modelo de investigación con 12 millones de tokens no tiene fecha de disponibilidad general publicada. También existe SubQ Code, un agente de programación de línea de comandos en acceso anticipado.
¿Cuánto cuesta SubQ comparado con los modelos actuales?
Según los datos publicados por la empresa, el coste es aproximadamente un quinto del de Claude Opus o GPT-5.5 para cargas de trabajo comparables en contexto largo. Los precios exactos no están públicamente detallados y pueden variar según el plan de acceso.
☞ El artículo completo original de Natalia Polo lo puedes ver aquí

No hay comentarios.:
Publicar un comentario