22 подписчика
Революция коммутаторов в эпоху сверхъячеек
Параметры больших языковых моделей растут. Физические ограничения GPU и VRAM вынуждают масштабировать кластеры AI. Производительность сети стала ключевым фактором эффективности вычислений.
01 Удалённый прямой доступ к памяти
Чтобы преодолеть узкие места сети в AI-кластерах, RDMA (Remote Direct Memory Access — удалённый прямой доступ к памяти) стал отраслевым стандартом. GPU Direct RDMA — технология NVIDIA и Mellanox (2009), позволившая GPU обмениваться данными без CPU. Ранее передача данных через TCP/IP (Transmission Control Protocol/Internet Protocol — протокол управления передачей/межсетевой протокол) приводила к высоким задержкам и нагрузке на CPU.
RDMA использует offload (разгрузка) и kernel bypass (обход ядра), обеспечивая прямую передачу данных. Основные реализации: InfiniBand, iWARP (Internet Wide Area RDMA Protocol — широкополосный протокол RDMA) и RoCE (RDMA over Converged Ethernet — RDMA по сходящейся Ethernet).
02 InfiniBand против Ethernet
InfiniBand обеспечивает задержку <2 мкс и zero packet loss (нулевые потери пакетов). RoCE v2 добавил маршрутизацию через IP/UDP (Internet Protocol/User Datagram Protocol — межсетевой протокол/протокол пользовательских датаграмм), повысив гибкость. В июне 2025 года Broadcom, Microsoft, Google и другие представили UEC 1.0 (Ultra Ethernet Consortium — консорциум сверхвысокоскоростного Ethernet), чтобы догнать InfiniBand. К UEC присоединились Alibaba, Baidu, Huawei, Tencent. По прогнозам Dell’Oro Group, к 2027 году Ethernet обгонит InfiniBand на рынке AI-сетей.
03 Сверхъячейки и рост рынка коммутаторов
Модели растут до триллионов параметров. Объединение сотен GPU в единый логический блок через высокоскоростное interconnect (межсоединение) стало стандартом для следующего поколения AI-инфраструктуры.
Появление backend-сетей (внутренних сетей) в AI-серверах увеличило число портов, стимулируя спрос на high-speed switches (высокоскоростные коммутаторы), NIC (Network Interface Card — сетевые интерфейсные карты) и оптические модули.
04 Игроки рынка AI-коммутаторов
NVIDIA запустила Spectrum-X (Ethernet-решение для сверхкрупных кластеров) и переводит платформу Rubin на CPO (Co-Packaged Optics — сочленённая оптика). Broadcom представила Tomahawk 6 — первый switch chip (коммутационный чип) на 102,4 Тбит/с.
Китайские вендоры: Huawei (CloudEngine XH9330, XH9230), H3C (1.6T switch для AI, первый 51.2T 800G CPO switch), Ruijie Networks (51.2T CPO solution), ZTE (230.4T chassis switch).
Интернет-компании разрабатывают собственные switches (коммутаторы): Tencent (Gemini 25.6T CPO), ByteDance (102.4T switch для HPN 6.0), Alibaba (102.4T switch с NPO — Near Package Optics — оптика сближенного монтажа).
05 Почему интернет-компании создают свои коммутаторы
White box switches (коммутаторы в белых корпусах) с hardware/software decoupling (разделением hardware и software) снизили порог входа. Гиперскейлеры (Alibaba, Tencent, ByteDance) требуют кастомизированных решений для AI-кластеров, которые стандартные вендоры не всегда могут предоставить. Собственная разработка позволяет оптимизировать TCO (Total Cost of Ownership — совокупная стоимость владения) и контролировать сетевую инфраструктуру.
2 минуты
3 дня назад