Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

Ayar Labs и Wiwynn объединились для создания серверной стойки с 1024 GPU на базе фотоники

Эксклюзив: Эталонный дизайн позволит объединить более тысячи ускорителей в единый огромный сервер. Ayar Labs и Wiwynn разрабатывают стоечную платформу с оптическими интерконнектами. — theregister.com Эксклюзив Если вы считали огромными стоечные системы Nvidia или AMD с 72 GPU, то кремниевая компания Ayar Labs готовит нечто гораздо более масштабное. В среду стартап, специализирующийся на кремниевой фотонике, сообщил, что работает с ODM-партнером Wywinn над созданием новой эталонной платформы стоечного масштаба, способной объединить более 1024 GPU в единую унифицированную систему. Что более важно для операторов дата-центров, оптические интерконнекты, используемые для соединения этих GPU, не потребуют питания и охлаждения стоек мощностью свыше 600 киловатт. Вместо этого, по прогнозам, эталонный дизайн будет потреблять от 100 до 200 киловатт на стойку, что соответствует современным стоечным системам. Чтобы достичь цели в 1024 ускорителя, дуэт просто добавит больше стоек — то, что невозможн

Эксклюзив: Эталонный дизайн позволит объединить более тысячи ускорителей в единый огромный сервер. Ayar Labs и Wiwynn разрабатывают стоечную платформу с оптическими интерконнектами. — theregister.com

Эксклюзив Если вы считали огромными стоечные системы Nvidia или AMD с 72 GPU, то кремниевая компания Ayar Labs готовит нечто гораздо более масштабное.

В среду стартап, специализирующийся на кремниевой фотонике, сообщил, что работает с ODM-партнером Wywinn над созданием новой эталонной платформы стоечного масштаба, способной объединить более 1024 GPU в единую унифицированную систему.

Что более важно для операторов дата-центров, оптические интерконнекты, используемые для соединения этих GPU, не потребуют питания и охлаждения стоек мощностью свыше 600 киловатт.

Вместо этого, по прогнозам, эталонный дизайн будет потреблять от 100 до 200 киловатт на стойку, что соответствует современным стоечным системам. Чтобы достичь цели в 1024 ускорителя, дуэт просто добавит больше стоек — то, что невозможно сегодня при использовании медных интерконнектов в новейших системах AMD и Nvidia.

«Глядя на текущие стойки, вы вынуждены размещать всё в этой одной стойке. Вы вынуждены размещать там GPU, вынуждены размещать там CPU. Вы вынуждены размещать коммутаторы, просто потому что медь не позволяет уйти далеко», — рассказал технический директор Ayar Владимир Стоянович в эксклюзивном интервью El Reg.

Медь — одна из причин, по которой стойки, такие как системы Nvidia Vera Rubin Ultra мощностью 600 киловатт, становятся всё горячее. На скоростях, на которых работают эти интерконнекты, медь может передавать сигнал лишь на несколько футов без деградации, в то время как традиционная подключаемая оптика слишком неэффективна, чтобы быть жизнеспособной.

Ayar стремится обойти эту проблему путем совместной упаковки оптики с вычислительными элементами, что резко снижает энергопотребление по сравнению с подключаемыми модулями, одновременно увеличивая дальность и пропускную способность до 3 раз.

На прошлогодней конференции Super Computing мы смогли лучше рассмотреть, как могут выглядеть эти ускорители. Был представлен прототип, разработанный в сотрудничестве с Alchip, который включал восемь оптических движков TeraPHY от Ayar с пропускной способностью более 100 Тбит/с.

 📷
📷

На SC25 компания Ayar Labs продемонстрировала, как может выглядеть XPU с использованием чиплетов CPO (восемь кристаллов, расположенных по краям корпуса)

Но прежде чем вы сможете развернуть такой чип, вам нужно место, куда его поместить.

«Мы хотим проработать каждую деталь, потому что, в конечном счете, единицей покупки для гиперскейлера, так сказать, является стойка, а я бы сказал, даже, возможно, кластер», — отметил Стоянович.

По сравнению со стандартным 19-дюймовым серверным шасси, системы стоечного масштаба значительно сложнее. Системы вроде жидкостного охлаждаемого NVL72 от Nvidia содержат километры кабелей и десятки разъемов для слепого сопряжения для сетей, питания и охлаждения. Упаковать всё это в надежное и обслуживаемое шасси уже достаточно сложно, прежде чем добавлять фотонику.

Внедрение фотоники вносит новые проектные решения, например, как прокладывать жидкостное охлаждение, пояснил Стоянович. «Когда поступает холодная вода, что вы охлаждаете в первую очередь? Что вы охлаждаете во вторую?»

«Если посмотреть на оригинальную спецификацию ELSFP [лазерного модуля], она никогда не предназначалась для работы в среде с жидкостным охлаждением».

Другой аспект — программное управление и мониторинг. Одним из барьеров для внедрения совместно упакованной оптики является увеличение радиуса поражения. При использовании подключаемых трансиверов неисправный оптический модуль можно заменить, но если выходит из строя оптический движок, он уносит с собой весь чип.

Это делает программный мониторинг и телеметрию крайне важными для сужения круга поиска, чтобы определить, связаны ли потенциальные проблемы с оптикой или на них влияет какой-либо другой фактор. Наряду с механической конструкцией Ayar также работает с Wiwynn над использованием встроенной прошивки на своих чипах именно по этой причине.

На Конференции по оптоволоконной связи (OFC) на следующей неделе Ayar и Wiwynn представят плоды своего труда — эталонный дизайн стоечного масштаба, который интегрирует оптические движки и подключаемые лазерные модули фотонного стартапа с опытом серверного производителя в области механического и системного проектирования.

 📷
📷

Вот первый взгляд на фотонный вычислительный модуль Ayar Labs и Wiwynn

Эталонный дизайн, с которым El Reg заранее ознакомился перед мероприятием, по-видимому, включает два оптически соединенных ускорителя и один CPU. В передней части системы расположены 16 обслуживаемых пользователем лазерных модулей SuperNova от Ayar, а также множество сетевых интерфейсов, монтируемых спереди, в стиле гиперскейлеров.

По сравнению с вычислительными модулями, которые мы видели у Nvidia и AMD, эталонный дизайн примерно вдвое менее плотный, но поскольку он использует оптические интерконнекты, ему не нужно быть таковым.

Вместо 18 модулей, соединенных сверхкороткими медными кабелями, Ayar может соединить сотни таких систем, чтобы сформировать один огромный логический сервер. Более того, поскольку компания не ограничена медными интерконнектами, эти стойки не обязаны иметь на борту все коммутаторы, вычислительные элементы и хранилище.

«Это позволяет вам реализовать дезагрегированную архитектуру, где вы строите стойку монолитно как вычислительную стойку, а затем у вас есть другая стойка, которая является стойкой коммутации, и, конечно, у вас может быть расширенная стойка памяти», — сказал Стоянович.

Объявление в среду прозвучало всего через неделю после того, как Ayar закрыла раунд финансирования Серии E на 500 миллионов долларов для ускорения массового производства своей совместно упакованной оптики, и почти через шесть месяцев после того, как стартап привлек Global Unichip Corp (GUC) для разработки эталонных дизайнов на основе своих оптических I/O чиплетов.

Работа стартапа с Wiwynn теперь решает другую сторону уравнения: куда разместить эти чипы, когда они будут готовы. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Tobias Mann

Оригинал статьи