Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

NVIDIA выкатила Spectrum-X Ethernet с MRC

Когда обучаешь модель на сотнях тысяч GPU, проблема уже не в том, чтобы купить больше чипов. Проблема в том, чтобы они не стояли без дела, пока сеть тупит, забивается или теряет пакеты. MRC, или Multipath Reliable Connection, делает одну простую, но очень дорогостоющую вещь: один RDMA-коннект больше не обязан идти по одному маршруту. Он может размазывать трафик сразу по нескольким путям, обходить перегруженные участки и быстро переключаться, если где-то что-то падает. Для обычного сервера это звучит как оптимизация. Для AI-кластера это вопрос миллионов долларов. Если один кусок сети тормозит, вся огромная тренировка модели начинает ждать. Ты купил Blackwell, построил дата-центр, запустил frontier training run, а потом часть GPU простаивает из-за сетевого узкого места. Красиво, дорого, больно. NVIDIA теперь продает идею, что сеть должна быть такой же умной частью AI-фабрики, как GPU, SuperNIC и софт для управления кластером. MRC уже проверяли в production на Spectrum-X, а специфика

NVIDIA выкатила Spectrum-X Ethernet с MRC.

Когда обучаешь модель на сотнях тысяч GPU, проблема уже не в том, чтобы купить больше чипов. Проблема в том, чтобы они не стояли без дела, пока сеть тупит, забивается или теряет пакеты.

MRC, или Multipath Reliable Connection, делает одну простую, но очень дорогостоющую вещь: один RDMA-коннект больше не обязан идти по одному маршруту. Он может размазывать трафик сразу по нескольким путям, обходить перегруженные участки и быстро переключаться, если где-то что-то падает.

Для обычного сервера это звучит как оптимизация. Для AI-кластера это вопрос миллионов долларов.

Если один кусок сети тормозит, вся огромная тренировка модели начинает ждать. Ты купил Blackwell, построил дата-центр, запустил frontier training run, а потом часть GPU простаивает из-за сетевого узкого места. Красиво, дорого, больно.

NVIDIA теперь продает идею, что сеть должна быть такой же умной частью AI-фабрики, как GPU, SuperNIC и софт для управления кластером.

MRC уже проверяли в production на Spectrum-X, а спецификацию открыли через Open Compute Project. В разработке участвовали не только NVIDIA, но и AMD, Broadcom, Intel, Microsoft и OpenAI.

Это редкий момент, когда за скучным сетевым протоколом видно будущее всей индустрии.

https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/

@machinelearning