29 de enero de 2025

No creo que haya nada mágico aquí: los expertos explican cómo DeepSeek ha revolucionado partes de la IA que no se creían posibles

"No creo que haya nada mágico aquí": los expertos explican cómo DeepSeek ha revolucionado partes de la IA que no se creían posibles

El lanzamiento de DeepSeek ya se ha convertido en un hito notable en la evolución de los modelos de IA, uno que demuestra que la comunidad 'oepn source' es capaz de igualar (o, al menos, de acercarse mucho), el rendimiento de los modelos propietarios de OpenAI, Google y Anthropic.

Su informe técnico (un PDF de 53 páginas) ofrece una gran cantidad de información detallada sobre cómo lo ha logrado; más interesante aún: de cómo lo ha logrado con recursos informáticos limitados.

Así esquiva las restricciones de exportación estadounidenses

En el competitivo mundo de la IA, la eficiencia computacional es un aspecto clave, sobre todo cuando estás sometido a limitaciones de hardware. DeepSeek ha logrado optimizar el rendimiento del suyo sin infringir las restricciones de exportación de chips impuestas por los EE.UU. a China.

Su secreto radica en tener en cuenta que innovar en materia de software puede ser tan útil como hacerlo en el campo del hardware: DeepSeek ha recurrido a un código de bajo nivel altamente eficiente que maximiza la gestión de la memoria y la comunicación entre los nodos (bloques de GPUs), logrando que estos procesen información y se comuniquen al mismo tiempo, sin generar 'atascos de datos'. Esta técnica se denomina 'Cross-Node All-to-All Communication'.

Sólo se estudia 'los temas que van a salir'

DeepSeek ha desarrollado una técnica innovadora para entrenar modelos de lenguaje de gran tamaño de forma más rápida y económica. En lugar de procesar toda la información de un modelo en cada paso del entrenamiento (lo que consume mucha energía y recursos computacionales), DeepSeek se enfoca en las partes más importantes:

  • Predicción inteligente: DeepSeek recurre a la técnica denominada 'Multi-token Prediction Training Objective' para "adivinar" qué parámetros de cada token son más relevantes en cada momento y así activar sólo estos últimos (lo que viene a ser como estudiar para un examen sólo los temas que probablemente salgan, en lugar de todo el temario).
  • Distribución eficiente de la carga de trabajo: DeepSeek divide el trabajo de entrenamiento entre diferentes 'expertos' dentro del mismo modelo. A esto se le denomina 'Mixture of Experts', una técnica de la que ya hacen uso otros modelos de IA anteriores, como Mixtral.

Así, DeepSeek ha reducido en un 95% el uso de GPUs necesario para el entrenamiento de sus modelos de lenguaje, y logra entrenarlos en mucho menos tiempo

Una cabeza más comprimida para pensar más barato y mejor

DeepSeek también ha desarrollado una nueva técnica para reducir drásticamente los costos de operar sus modelos, centrada en optimizar la memoria utilizada durante el proceso de inferencia, es decir, cuando el modelo genera texto o realiza predicciones.

DeepSeekMLA (Multi-head Latent Attention) es una tecnología que permite al modelo no cargar en memoria toda la 'ventana de contexto' (cuanto mayor es, mayor cantidad de datos podemos pedirle a un chatbot que procese). Las ventanas de contexto ampliar son especialmente costosas: cada token requiere contar con un almacén de combinaciones clave/valor... un almacén que esta técnica permite hacer mucho más pequeño.

Ayuda a esto que DeepSeek logre reducir significativamente el tamaño de los datos que el modelo necesita almacenar en su memoria durante dicho proceso, todo gracias a una técnica matemática (FP8 Mixed Precision Training) que permite representar una gran cantidad de información en un espacio mucho más pequeño.

Lo logra usando números más pequeños (de 8 bits) para hacer la mayoría de los cálculos, pero pasando selectivamente a otros más grandes (de 16/32 bits) en los pasos donde se necesita más precisión. De esta forma, se ahorra memoria y tiempo de cálculo sin perder mucha exactitud.

Esta compresión de la cantidad de datos que necesita almacenar, reduce el costo y tiempo necesarios para generar resultados. Además, esta optimización no compromete la calidad de las predicciones y permite a DeepSeek operar modelos grandes en hardware más asequible.

El último ingrediente: aprendizaje por refuerzo

Este nuevo modelo de IA utiliza una técnica (preexistente) llamada aprendizaje por refuerzo, que reduce el costo y el tiempo de entrenamiento gracias a que no requiere de grandes cantidades de datos etiquetados para su entrenamiento, lo cual es un cuello de botella común en el desarrollo de IA.

¿Cómo funciona?

  • Preguntas y respuestas: El modelo se enfrenta a preguntas complejas y genera respuestas.
  • Autoevaluación: El modelo evalúa sus propias respuestas en grupos, sin necesidad de una calificación humana.
  • Mejora continua: Basado en esta evaluación, el modelo ajusta su forma de generar respuestas para mejorar en el futuro.

Esto se complementa con un mecanismo complementario, denominado 'Auxiliary-Loss-Free Load Balancing', que permite al modelo organizar de forma automática y eficiente el trabajo de cada 'experto', asegurándose de que todas contribuyan en su justa medida, sin necesidad de procesos extras.

Además, DeepSeek ha incorporado otro enfoque denominado 'destilación de modelos', que permite entrenar modelos pequeños para que imiten a otros más grandes, logrando resultados equivalentes con menor costo computacional.

¿Cómo valoramos todo esto?

El usuario de X @wordgrammer, experto en IA, ha sido contundente en una de sus últimas publicaciones a la hora de valorar qué hay exactamente detrás del éxito de DeepSeek:

"No creo que haya nada mágico aquí. Realmente creo que han logrado dos grandes innovaciones para reducir costos, lo que les permitió realizar más experimentos, lo que a su vez les permitió replicar más rápidamente el modelo 'o1' de OpenAI".

Igualmente, cree que la forma en que se han planteado las sanciones estadounidenses ha sido un poco chapucera... pero no cree, ni por asomo, que eso signifique que Estados Unidos esté perdiendo la guerra de la IA contra China

"Las restricciones de exportación no los afectaron tanto como pensamos, probablemente [porque] eran realmente malas: los H800 [no restringidos] sólo son peores que los H100 [restringidos] en lo que respecta al ancho de banda entre chips".
"[...] DeepSeek tuvo unos pocos grandes avances, nosotros hemos tenido cientos de pequeños avances. Si adoptamos la arquitectura de DeepSeek, nuestros modelos serán mejores. Porque tenemos más capacidad de cómputo y más datos".

Imagen | Marcos Merino mediante IA

En Genbeta | DeepSeek no tenía suficiente con hacer explotar Wall Street: acaba de lanzar una IA que analiza y genera imágenes

-
La noticia "No creo que haya nada mágico aquí": los expertos explican cómo DeepSeek ha revolucionado partes de la IA que no se creían posibles fue publicada originalmente en Genbeta por Marcos Merino .



☞ El artículo completo original de Marcos Merino lo puedes ver aquí

No hay comentarios.:

Publicar un comentario