22 подписчика

Революция коммутаторов в эпоху сверхъячеек

Параметры больших языковых моделей растут. Физические ограничения GPU и VRAM вынуждают масштабировать кластеры AI. Производительность сети стала ключевым фактором эффективности вычислений.

01 Удалённый прямой доступ к памяти

Чтобы преодолеть узкие места сети в AI-кластерах, RDMA (Remote Direct Memory Access — удалённый прямой доступ к памяти) стал отраслевым стандартом. GPU Direct RDMA — технология NVIDIA и Mellanox (2009), позволившая GPU обмениваться данными без CPU. Ранее передача данных через TCP/IP (Transmission Control Protocol/Internet Protocol — протокол управления передачей/межсетевой протокол) приводила к высоким задержкам и нагрузке на CPU.

RDMA использует offload (разгрузка) и kernel bypass (обход ядра), обеспечивая прямую передачу данных. Основные реализации: InfiniBand, iWARP (Internet Wide Area RDMA Protocol — широкополосный протокол RDMA) и RoCE (RDMA over Converged Ethernet — RDMA по сходящейся Ethernet).

02 InfiniBand против Ethernet

InfiniBand обеспечивает задержку <2 мкс и zero packet loss (нулевые потери пакетов). RoCE v2 добавил маршрутизацию через IP/UDP (Internet Protocol/User Datagram Protocol — межсетевой протокол/протокол пользовательских датаграмм), повысив гибкость. В июне 2025 года Broadcom, Microsoft, Google и другие представили UEC 1.0 (Ultra Ethernet Consortium — консорциум сверхвысокоскоростного Ethernet), чтобы догнать InfiniBand. К UEC присоединились Alibaba, Baidu, Huawei, Tencent. По прогнозам Dell’Oro Group, к 2027 году Ethernet обгонит InfiniBand на рынке AI-сетей.

03 Сверхъячейки и рост рынка коммутаторов

Модели растут до триллионов параметров. Объединение сотен GPU в единый логический блок через высокоскоростное interconnect (межсоединение) стало стандартом для следующего поколения AI-инфраструктуры.

Появление backend-сетей (внутренних сетей) в AI-серверах увеличило число портов, стимулируя спрос на high-speed switches (высокоскоростные коммутаторы), NIC (Network Interface Card — сетевые интерфейсные карты) и оптические модули.

04 Игроки рынка AI-коммутаторов

NVIDIA запустила Spectrum-X (Ethernet-решение для сверхкрупных кластеров) и переводит платформу Rubin на CPO (Co-Packaged Optics — сочленённая оптика). Broadcom представила Tomahawk 6 — первый switch chip (коммутационный чип) на 102,4 Тбит/с.

Китайские вендоры: Huawei (CloudEngine XH9330, XH9230), H3C (1.6T switch для AI, первый 51.2T 800G CPO switch), Ruijie Networks (51.2T CPO solution), ZTE (230.4T chassis switch).

Интернет-компании разрабатывают собственные switches (коммутаторы): Tencent (Gemini 25.6T CPO), ByteDance (102.4T switch для HPN 6.0), Alibaba (102.4T switch с NPO — Near Package Optics — оптика сближенного монтажа).

05 Почему интернет-компании создают свои коммутаторы

White box switches (коммутаторы в белых корпусах) с hardware/software decoupling (разделением hardware и software) снизили порог входа. Гиперскейлеры (Alibaba, Tencent, ByteDance) требуют кастомизированных решений для AI-кластеров, которые стандартные вендоры не всегда могут предоставить. Собственная разработка позволяет оптимизировать TCO (Total Cost of Ownership — совокупная стоимость владения) и контролировать сетевую инфраструктуру.

Революция коммутаторов в эпоху сверхъячеек Параметры больших языковых моделей растут. Физические ограничения GPU и VRAM вынуждают масштабировать кластеры AI.

2 минуты

3 дня назад