Найти в Дзене
DigiNews

Maia 200 от Microsoft обещает производительность уровня Blackwell при энергопотреблении в две трети от оригинала.

Microsoft представила ускоритель ИИ Maia 200, спроектированный для инференса и призванный конкурировать с Blackwell от Nvidia. По заявлению Скотта Гатри, этот чип на 30% дешевле аналогов и потребляет всего 750 Вт, оптимизирован для больших моделей и поддерживает масштабирование до тысяч чипов. В понедельник компания Microsoft представила собственный новый ускоритель на базе искусственного интеллекта, призванный составить конкуренцию графическим процессорам Blackwell от Nvidia. Ускоритель Maia 200 второго поколения от Редмонда, изготовленный по техпроцессу N3 от TSMC, содержит 144 миллиарда транзисторов, способных обеспечить совокупную производительность в 10 петафлопс при вычислениях с плавающей запятой формата FP4. Это ставит чип в прямое противостояние с графическими процессорами Nvidia Blackwell первого поколения, такими как B200 — по крайней мере, с точки зрения инференса (вывода). По словам Скотта Гатри, исполнительного вице-президента Microsoft по облачным технологиям и ИИ, чип б
Оглавление

Microsoft представила ускоритель ИИ Maia 200, спроектированный для инференса и призванный конкурировать с Blackwell от Nvidia. По заявлению Скотта Гатри, этот чип на 30% дешевле аналогов и потребляет всего 750 Вт, оптимизирован для больших моделей и поддерживает масштабирование до тысяч чипов.

В понедельник компания Microsoft представила собственный новый ускоритель на базе искусственного интеллекта, призванный составить конкуренцию графическим процессорам Blackwell от Nvidia.

Ускоритель Maia 200 второго поколения от Редмонда, изготовленный по техпроцессу N3 от TSMC, содержит 144 миллиарда транзисторов, способных обеспечить совокупную производительность в 10 петафлопс при вычислениях с плавающей запятой формата FP4.

Это ставит чип в прямое противостояние с графическими процессорами Nvidia Blackwell первого поколения, такими как B200 — по крайней мере, с точки зрения инференса (вывода).

По словам Скотта Гатри, исполнительного вице-президента Microsoft по облачным технологиям и ИИ, чип был «специально оптимизирован для инференса очень больших моделей, включая как рассуждения (reasoning), так и цепочку рассуждений (chain of thought)».

По сравнению с обучением, инференс гораздо более чувствителен к пропускной способности памяти. Для каждого сгенерированного токена (представьте себе слово или знак препинания) весь активный набор весов модели должен быть передан из памяти. Из-за этого пропускная способность памяти устанавливает верхний предел интерактивности системы — то есть, скольким токенам в секунду на пользователя она может генерировать.

Для решения этой проблемы Maia 200 оснащен 216 ГБ высокоскоростной памяти, распределенной, по всей видимости, по шести стекам HBM3e, что обеспечивает заявленную пропускную способность в 7 ТБ/с.

Для сравнения, графические процессоры Nvidia B200 предлагают от 180 до 192 ГБ HBM3e с пропускной способностью до 8 ТБ/с каждый. Более поздние итерации Blackwell увеличивают этот объем до 288 ГБ, но пропускная способность остается прежней.

Оптимизация эффективности инференса

Microsoft также стремится подчеркнуть, насколько более экономичным с точки зрения затрат и энергопотребления является Maia 200 по сравнению с конкурирующими ускорителями.

«Maia на 30 процентов дешевле любого другого ИИ-кристалла, представленного сегодня на рынке», — заявил Гатри в проморолике.

При мощности 750 Вт чип потребляет значительно меньше энергии, чем чипы Nvidia, каждый из которых может потреблять более 1200 Вт. Этого достаточно низкого уровня, чтобы, по словам Microsoft, Maia можно было развертывать как в дата-центрах с воздушным, так и с жидкостным охлаждением.

Однако важно помнить, что Maia — это чип для инференса. Поэтому, хотя он может выгодно отличаться от старых моделей Blackwell от Nvidia, он не так универсален.

Углубляясь в технические характеристики чипа, мы видим, что Microsoft пошла на определенные уступки, чтобы максимизировать производительность на ватт.

Тензорный блок чипа (TTU), который Microsoft называет тензорным ядром, аппаратно поддерживает только форматы данных FP8, FP6 и FP4. Таким образом, хотя мы по-прежнему наблюдаем 2-кратный прирост FLOPS при переходе с FP8 на FP4, рабочие нагрузки, требующие точности 16 или 32 бит, сталкиваются со значительным снижением производительности, поскольку они должны вычисляться на плиточных векторных процессорах (TVP) чипа.

 📷
📷

Краткий обзор характеристик Maia 200 — нажмите для увеличения

Хорошая новость заключается в том, что большая часть инференса больших языковых моделей (LLM) теперь выполняется с меньшей точностью, чем BF16. Фактически, нередки случаи, когда веса моделей хранятся в 4-битном формате с плавающей запятой, таком как NVFP4 или MXFP4, в то время как фактические активации и KV-кэши (кратковременная память модели) вычисляются с более высокой точностью, например, MXFP8, для поддержания точности.

Тем не менее, Microsoft не лукавит, заявляя, что этот чип является ускорителем инференса. Несмотря на некоторые достижения в области обучения с ультранизкой точностью, большинство моделей GenAI по-прежнему обучаются с более высокой точностью, причем BF16 остается наиболее распространенным.

Все это к тому, что, хотя Maia 200 может быть самым конкурентоспособным ИИ-чипом Microsoft на сегодняшний день, не стоит ожидать, что Редмонд в ближайшее время сократит свои заказы на GPU Nvidia, особенно с учетом того, что Rubin обещал обеспечить 5-кратный прирост производительности инференса по сравнению с Blackwell или Maia 200, который выйдет позже в этом году.

Разработан для масштабирования

Maia 200 не только обеспечивает большую производительность и память по сравнению с предыдущим поколением, но и спроектирован для масштабирования с целью поддержки массивных моделей с триллионами параметров.

Каждый Maia 200 оснащен двунаправленной пропускной способностью 2,8 ТБ/с (1,4 ТБ/с в каждом направлении), что позволяет ему объединять свои вычислительные ресурсы и память в кластерах до 6144 чипов. Это эквивалентно 61 экзафлопс ИИ-вычислений и 1,3 петабайта HBM3e.

Это достигается за счет использования интегрированной сети на кристалле (NoC) на базе Ethernet, которая, по нашим оценкам, имеет либо 56 линий SerDes по 200 Гбит/с, либо 112 линий по 100 Гбит/с. Поверх этого работает собственный протокол транспортного уровня ИИ от Microsoft.

Как бы странно это ни звучало во времена, когда Nvidia продвигает NVLink Fusion, а AMD — UALink, это не первый случай использования Ethernet подобным образом. AMD туннелирует UALink поверх Ethernet на своих чипах серии MI455X, и вы, возможно, помните, что Intel использовала Ethernet для межчипового взаимодействия в своем семействе ИИ-ускорителей Gaudi.

Что касается топологии масштабирования Microsoft, облачный гигант заявляет, что использует двухуровневую доменную структуру масштабирования, включающую коммутаторы пакетов Ethernet. Для нас это звучит как двухуровневая топология fat-tree, обычно ассоциирующаяся с сетями масштабирования (scale-out).

Чтобы избежать узких мест производительности в больших кластерах, Microsoft может динамически разделять 272 МБ SRAM чипа Maia 200 на пулы на уровне кластера (CSRAM) и на уровне плитки (TSRAM).

Пул CSRAM функционирует как буфер для коллективных коммуникаций, избегая ненужных передач данных между быстрой внутренней памятью и HBM. TSRAM, тем временем, служит кэшем для промежуточных операций матричного умножения и ядер внимания.

Мы обратились к Microsoft за разъяснениями по поводу их топологии масштабирования; мы сообщим, если получим ответ.

В любом случае, сетевые решения Microsoft явно разработаны для обеспечения возможности запуска даже самых больших передовых моделей для ее клиентов, включая GPT-5.2 от OpenAI.

Maia 200 уже работает в центральном регионе Microsoft в Де-Мойне, штат Айова, с планами по его внедрению в регионе West 3 в Финиксе и других местах в ближайшем будущем.

Наряду с новыми чипами Microsoft также выпустила SDK в предварительной версии, чтобы предоставить потенциальным клиентам инструменты, необходимые для начала интеграции чипа в их рабочие процессы — зарегистрируйтесь, чтобы запросить доступ здесь. Компания заявляет, что чип будет поддерживать ядра PyTorch и Triton, что должно снизить порог вхождения. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Tobias Mann

Оригинал статьи

Microsoft
32,8 тыс интересуются