El mundo entero está preguntándose cómo es posible que los modelos de IA de DeepSeek se hayan convertido de la noche a la mañana en los grandes protagonistas de la actualidad en el ámbito de la inteligencia artificial. La respuesta es relativamente sencilla. Estos modelos han logrado demostar que se puede hacer más con mucho menos.
Tanto DeepSeek V3 como DeepSeek-R1 son comparables a GPT-4 o o1 de OpenAI respectivamente, pero se estima que su entrenamiento ha sido mucho menos costoso y su inferencia, desde luego, lo es: los precios de la API de DeepSeek son hasta 35 veces inferiores a los de OpenAI, pero eso hace que uno se pregunte cómo es posible.
La respuesta es clara, y lo es porque tenemos a nuestra disposición los informes técnicos de estos modelos de IA. Precismente su estudio nos ha permitido aclarar cuáles son las técnicas que ha usado este laboratorio de I+D chino para llegar a desarrollar estos modelos tan eficientes y capaces.
Muchas técnicas, un solo objetivo: la eficiencia
Hay varias diferencias que hacen que el nuevo modelo de DeepSeek sea especialmente eficiente. Lo explican con detalle sus creadores en el detallado informe técnico que está disponible públicamente. He aquí las más relevantes:
- DeepSeekMLA (Multi-head Latent Attention): es otra mejora sustancial –incluso más que la anterior, y también introducida con DeepSeek V2– que afecta a la forma en la que se gestiona la memoria en estos modelos. Normalmente es necesario cargar en memoria tanto el modelo como toda la ventana de contexto –la que nos permite escribir prompts e incluir largos textos, por ejemplo–. Las ventanas de contexto son especialmente costosas porque cada token requiere tanto una clave como su correspondiente valor. Con la mejora introducida con esta técnica, lo que se hacía posible era comprimir ese almacén de claves y valores, reduciendo de forma dramática el uso de memoria durante la inferencia.
- Auxiliary-Loss-Free Load Balancing: si imaginamos un modelo como una gran orquesta, cada músico es un "experto" dentro del modelo. Para tocar una pieza compleja, no todos los músicos son necesarios todo el tiempo. Tradicionalmente se usaban las llamadas "pérdidas auxiliares" para asegurarse de que todos los músicos tocaban lo suficiente, pero estas pérdidas podían interferir con esa interpretación de la pieza musical (el entrenamiento del modelo), lo que podía degradar el rendimiento general. Con DeepSeek V3 el modelo es capaz de equilibrar el trabajo de cada experto de forma dinámica. Eso hace el entrenamiento más sencillo, directo y eficiente al eliminar las "pérdidas auxiliares". Además la eliminación de interferencias permite al modelo aprender mejor y con menos recursos... y obtener mejores resultados.
- Multi-token Prediction Training Objective: a menudo predecir la siguiente palabra depende de varias palabras anteriores o del contexto. Con esta técnica en lugar de predecir solo la siguiente palabra, el modelo aprende a predecir varias palabras a la vez. Eso hace que se generen textos más naturales y comprensibles y menos ambiguos, pero además acelera el entrenamiento al reducir el número de pasos necesarios para generar la secuencia completa de texto.
- FP8 Mixed Precision Training: el uso de números FP8 permite reducir significativamente el consumo de memoria y acelera los cálculos. Algunas partes críticas del modelo siguen usando entrenamiento con FP32 para garantizar la precisión, pero hay otro beneficio adicional de FP8: se reduce el tamaño de los modelos. Otros modelos utilizan técnicas como la cuantización o la poda de parámetros. Aunque OpenAI no da datos sobre GPT-4 en este apartado, la suposición es que trabaja con BF16, más costoso en términos de memoria. Aunque FP8 teóricamente lleva a modelos menos precisos, se usan otras técnicas complementarias como Fine-Grained Quantization para reducir el impacto negativo de valores que se salen de lo común, lo que hace posible un entrenamiento estable.
- Cross-Node All-to-All Communication: durante el entrenamiento es necesario intercambiar información constantemente entre todos los nodos (computadoras) conectados en los centros de datos para el entrenamiento. Eso puede convertirse en un cuello de botella, pero estas nuevas técnicas de DeepSeek V3 inclyen protocolos de comunicación eficientes, reducción del tráfico de datos y sincronización eficiente para acelerar el entrenamiento y, una vez más, reducir los costes de ese proceso.
Aprendizaje por refuerzo y "destilación" como claves
Pero es que además de todas esas técnicas los responsables de DeepSeek V3 explican cómo lo preentrenaron con 14,8 billones de tokens, proceso al cual siguió un Ajuste Supervisado (Supervised Fine-Tuning, SFT) y varias etapas de Aprendizaje por Refuerzo (Reinforcement Learning, RL). La fase de SFT –que sí se menciona en el informe de DeepSeek V3– se omitió por completo en el caso de DeepSeek-R1.
Sin embargo el aprendizaje por refuerzo es protagonista absoluto en el desarrollo de ambos modelos, sobre todo en el R1. La técnica es muy conocida en el ámbito de la inteligencia artificial, y es como si entrenáramos a un perro con premios y castigos. El modelo aprende a responder mejor al darle recompensas si lo hace bien. Con el tiempo, el modelo aprende a tomar acciones que maximizan la recompensa a largo plazo. En DeepSeek se utiliza el aprendizaje por refuerzo para descomponer problemas complejos en pasos más pequeños.
En el informe técnico de DeepSeek R1 se indica además cómo este modelo hace uso de las técnicas RL directamente sobre el modelo base, sin necesidad de un entrenamiento supervisado. Eso ahorra recursos de cómputo.
También entra en juego aquí la llamada Cadena de Pensamiento (Chain-of-Thought), también mencionada en el informe técnico. Con ello se refieren a la capacidad de un modelo de lenguaje para mostrar los pasos intermedios de su razonamiento. El modelo no solo proporciona una respuesta: también explica cómo llegó a esa respuesta.
Eso no solo mejora la transparencia (sabemos "qué está pensando la IA"), sino que permite identificar errores y mejorar la precisión. La combinación de ambas técnicas hace que en la etapa de inferencia el comportamiento de DeepSeek sea especialmente notable.
En el caso de DeepSeek R1 hay otras técnicas que permiten también hacerlo especialmente eficiente. Entre ellas destaca la destilación de los modelos. ¿En que consiste ese proceso?
La destilación de modelos es como enseñar a un "modelo alumno" más pequeño a comportarse como un "modelo profesor" más grande y avanzado. Se entrena a un modelo pequeño para que imite las capacidades y comportamiento de un modelo grande, pero con menos recursos computacionales. El objetivo es claro: que el modelo pequeño sea más rápido y eficiente, pero igual de inteligente en tareas específicas.
Los desarrolladores de DeepSeek-R1 destacan cómo usaron modelos pequeños como Qwen (de 1.5B a 32B) o Llama 3.3 (8B y 70B-Instruct) usando 800.000 muestras filtradas con DeepSeek-R1. En esos modelos solo se uso aprendizaje supervisado y no aprendizaje por refuerzo porque querían demostrar la efectividad de la técnica de destilado. Los resultados de ese proceso saltaron a la vista en los benchmarks publicados en ese informe técnico: aun siendo más pequeños que sus competidores, su comportamiento era mejor.
Hay otras mejoras adicionales en este modelo, pero sin duda esas son las más importantes a la hora de lograr esa eficiencia y ese "hacer más con menos". La documentación de DeepSeek es fantástica y seguramente sea muy útil para que otros proyectos en este ámbito sigan evolucionando y mejorando, pero hoy por hoy una cosa está clara: el resultado de esas mejoras es espectacular, y los modelos de DeepSeek se comportan tan bien o mejor que sus competidores, como hemos podido comprobar en nuestra extensa comparativa.
-
La noticia DeepSeek hace lo mismo que los modelos más avanzados de OpenAI con mucho menos recursos. La clave: "reinforcement learning" fue publicada originalmente en Xataka por Javier Pastor .
☞ El artículo completo original de Javier Pastor lo puedes ver aquí
No hay comentarios.:
Publicar un comentario