Cisco представляет Silicon One G300 — мощный сетевой чип для ИИ-кластеров. Решение использует программируемость P4 и улучшенное управление перегрузками для конкуренции с Broadcom и Nvidia. — theregister.com
По мере того как кластеры обучения и инференса ИИ становятся все больше, им требуются более крупные сети с более высокой пропускной способностью для их питания. Представив на этой неделе Silicon One G300, Cisco теперь располагает монстром мощностью 102,4 Тбит/с, который составит конкуренцию Tomahawk 6 от Broadcom и Nvidia Spectrum-X Ethernet Photonics.
Как и эти чипы, G300 оснащен 512 сверхбыстрыми сериализаторами/десериализаторами (SerDes) со скоростью 200 Гбит/с. Огромный радикс — то есть большое количество портов — означает, что Cisco теперь может поддерживать развертывание до 128 000 GPU, используя всего 750 коммутаторов, тогда как ранее требовалось 2500. Альтернативно, эти SerDes могут быть агрегированы для поддержки скоростей портов до 1,6 Тбит/с.
Однако ничто из этого не является уникальным для Cisco. Именно так масштабируется пропускная способность. Те же показатели применимы к кремниевым решениям Broadcom и Nvidia мощностью 102,4 Тбит/с, как и к любым другим.
Управление перегрузками ИИ
По словам Ракеша Чопры, сотрудника Cisco и старшего вице-президента, что действительно отличает G300 от конкурентов, так это его коллективный сетевой движок, оснащенный полностью общим буфером пакетов и балансировщиком нагрузки на основе путей для снижения перегрузок, улучшения использования каналов и задержки, а также сокращения времени выполнения.
«Нет никакой сегментации буферов пакетов, что позволяет пакетам поступать [и] поглощаться независимо от порта. Это означает, что вы можете лучше справляться с всплесками в рабочих процессах ИИ или в клиентских нагрузках», — сказал он.
«Агент балансировки нагрузки отслеживает потоки, проходящие через G300. Он отслеживает точки перегрузки и взаимодействует со всеми другими G300 в сети, создавая своего рода глобальную коллективную карту того, что происходит во всем кластере ИИ», — добавил он.
Такое управление перегрузками далеко не ново. И Broadcom, и Nvidia внедрили аналогичные технологии в свои коммутаторы и сетевые карты по этой причине.
Однако Cisco утверждает, что ее реализация обеспечивает на 33% лучшее использование каналов, что может сократить время обучения до 28% по сравнению с подходами, основанными на разбрасывании пакетов.
И хотя Чопра не указывает, с каким поставщиком он сравнивает G300, отметим, что реализации Broadcom и Nvidia основаны на разбрасывании пакетов. Как обычно, мы рекомендуем относиться к любым заявлениям о производительности от поставщиков с долей скептицизма. Хотя коммутаторов мощностью 102,4 Тбит/с не так много, существует бесчисленное множество способов построения сетей с их использованием, и некоторые топологии могут выиграть от технологий одного поставщика больше, чем от других.
Программируемость P4
Коллективный сетевой движок Cisco — лишь часть головоломки. Другая часть, по словам Чопры, — это программируемость P4 чипа.
«Это означает, что мы можем взять наше устройство, перепрограммировать его для добавления новой функциональности, новых возможностей и развертывать одно и то же оборудование в различных ролях», — сказал Чопра, добавив, что это особенно ценно для продления срока службы коммутаторов. Поскольку новые функции вводятся, их часто можно добавить с помощью обновления программного обеспечения, а не требовать нового оборудования.
Если что-то из этого звучит знакомо, то это потому, что Cisco — не единственный поставщик сетевых решений для ИИ, использующий P4. Сетевые карты AMD Pensando, такие как Polara 400, также используют этот язык программирования. Это оказалось полезным для AMD, поскольку позволило разработчику чипов начать поставку сетевых карт, совместимых с Ultra Ethernet, еще до того, как спецификация была окончательно утверждена, поскольку любые изменения в спецификации могли быть реализованы позже с помощью обновления программного обеспечения.
Как и предыдущие чипы коммутаторов Silicon One, G300 будет напрямую конкурировать с Broadcom на рынке коммерческих кремниевых решений, а также будет использоваться в собственных сетевых устройствах Cisco.
В частности, Cisco заявляет, что этот компонент будет доступен в составе ее продуктовых линеек N9000 и Cisco 8000, каждая из которых будет оснащена 64 портами OSFP со скоростью 1,6 Тбит/с.
Оптика 1,6 Тбит/с появилась, но Cisco по-прежнему не предлагает CPO
Для поддержки этих устройств Cisco также выпускает новую оптику 1,6 Тбит/с, которая может быть разделена на другом конце до восьми соединений по 200 Гбит/с.
Наряду со сверхбыстрыми линиями связи Cisco представляет линейную оптику (LPO) со скоростью 800 Гбит/с, которая отказывается от бортового цифрового процессора сигналов (DSP) и ретаймера для снижения энергопотребления. Это возможно благодаря тому, что обработка сигналов полностью осуществляется в G300.
Хотя подключаемые модули не потребляют много энергии — обычно 10-20 Вт — 50-процентное снижение является значительным, учитывая, сколько подключаемых модулей может быть развернуто в центре обработки данных.
Cisco не сообщила нам, сколько энергии потребляет ее новый трансивер LPO, но заявила, что при использовании с системами N9000 или Cisco 8000 клиенты могут ожидать примерно 30-процентного снижения энергопотребления коммутатора.
В то время как Cisco добивается успехов в области подключаемых модулей, она еще не готова последовать примеру Nvidia и Broadcom и перейти на интегрированную оптику (CPO).
Эта технология предполагает перемещение оптики из подключаемого модуля в корпус коммутатора, снижая энергопотребление и, теоретически, повышая надежность сети.
«В настоящее время мы не делаем никаких публичных заявлений о CPO», — сказал Чопра, отметив, что Cisco ранее демонстрировала эту технологию на своем кремниевом решении G100. «У нас, безусловно, есть технология, мы ищем бизнес-согласованность, чтобы вывести ее на рынок».
Cisco расширяет доступность кремниевых решений для маршрутизации между центрами обработки данных
Наряду с новой оптикой Cisco также объявила о более широкой доступности своих маршрутизирующих кремниевых решений Silicon One P200.
Мы подробно рассмотрели этот чип осенью прошлого года, но, в двух словах, чип мощностью 51,2 Тбит/с предназначен для соединения кластеров обучения ИИ на расстояниях до 1000 километров.
Наряду с ранее анонсированным маршрутизатором Cisco 8223, Switchzilla заявляет, что этот компонент теперь доступен в линейке N9000 и в виде линейной карты мощностью 28,8 Тбит/с.
Чипы, системы и оптика Cisco G300 должны начать поставляться позже в этом году, как раз к выходу систем следующего поколения Nvidia и AMD для стоек. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tobias Mann