31 de octubre de 2024

Colossus: El superordenador de Elon Musk que redefine los límites de la IA con 100.000 GPUs Nvidia

Colossus y la plataforma Spectrum-X

Spectrum-X es un avance notable en el campo de la conectividad de alta velocidad, capaz de manejar el enorme tráfico de datos entre GPUs sin las pérdidas típicas de otros sistemas. Al construir este sistema, el equipo de xAI —la compañía de Musk centrada en IA— decidió prescindir de InfiniBand, la tecnología tradicional en computación de alto rendimiento (HPC), que Nvidia adquirió en 2019 con la compra de Mellanox.

A diferencia de Ethernet estándar, que tiene limitaciones significativas en términos de rendimiento y colisiones de datos, Spectrum-X garantiza que el tráfico fluya con cero degradación en la latencia de la aplicación y minimiza la pérdida de paquetes. Este sistema de control de congestión permite un 95% de eficiencia en el flujo de datos, lo cual es fundamental para entrenar los modelos de lenguaje natural que Colossus procesará, conocidos como la familia Grok.

La arquitectura detrás de Spectrum-X

El núcleo de Spectrum-X es el conmutador Spectrum SN5600 Ethernet, capaz de soportar hasta 800 Gbps por puerto. Este conmutador, construido sobre un ASIC personalizado llamado Spectrum-4, y combinado con las tarjetas Nvidia BlueField-3 SuperNICs, permite una comunicación GPU a GPU rápida y eficiente. Esto no solo aumenta la velocidad de procesamiento, sino que también reduce significativamente los cuellos de botella que suelen ser comunes en los sistemas de HPC.

¿Por qué no InfiniBand?

Tradicionalmente, InfiniBand ha sido el estándar preferido en los sistemas de HPC debido a su capacidad para minimizar la pérdida de paquetes, manteniendo la velocidad y la precisión de los datos. Sin embargo, Ethernet sigue siendo popular, incluso en mercados sensibles a la velocidad, debido a su alta compatibilidad, la disponibilidad de opciones de proveedores y, en algunos casos, un mayor ancho de banda por puerto. Con Spectrum-X, Nvidia ofrece una alternativa escalable y flexible, permitiendo que sistemas como Colossus utilicen Ethernet de alta velocidad sin las limitaciones de colisiones de flujo y pérdida de datos, elementos críticos para proyectos de IA masivos.

El futuro de la IA con Spectrum-X

La integración de Spectrum-X en Colossus no solo permite el entrenamiento de modelos de lenguaje natural más sofisticados, sino que también impulsa la escalabilidad de los sistemas de IA. Nvidia asegura que esta tecnología permite acelerar la puesta en línea de máquinas de computación masiva como Colossus. Con su capacidad de proporcionar funciones de red que antes solo eran accesibles con soluciones InfiniBand, Spectrum-X representa un cambio radical en cómo las redes de alta velocidad se integran en los sistemas de IA.

Para el futuro, Musk y el equipo de xAI planean duplicar la capacidad de Colossus añadiendo 100,000 GPUs adicionales, lo que potenciará aún más sus capacidades de procesamiento y aprendizaje de modelos IA. Este aumento de poder tiene el potencial de posicionar a Colossus como uno de los superordenadores más avanzados y veloces del mundo.

Conclusión



☞ El artículo completo original de Juan Diego Polo lo puedes ver aquí

No hay comentarios.:

Publicar un comentario