119 подписчиков

Microsoft разрабатывает свои собственные AI-чипы и процессоры для облачных вычислений

16 ноября 202316 ноя 2023

5 мин

Microsoft подтвердила слухи: компания создала свой собственный кастомный AI-чип, который может использоваться для обучения больших языковых моделей и, возможно, избежать дорогостоящей зависимости от Nvidia. Кроме того, Microsoft разработала свой процессор на базе архитектуры Arm для облачных нагрузок. Оба кастомных чипа предназначены для питания Azure-центров обработки данных и подготовки компании и ее корпоративных клиентов к будущему, полному искусственного интеллекта.

AI-чип Azure Maia и процессор Azure Cobalt на базе Arm появятся в 2024 году, после взрывного роста спроса в этом году на GPU Nvidia H100, широко используемые для обучения и работы с генеративными изображениями и большими языковыми моделями. Спрос на эти GPU так велик, что некоторые из них даже продавались за более чем 40 000 долларов на eBay.

"У Microsoft действительно долгая история в области разработки силиконовых чипов", объясняет Рани Боркар, руководитель аппаратных систем и инфраструктуры Azure в Microsoft, в интервью The Verge. Microsoft сотрудничала над силиконом для Xbox более 20 лет назад и даже совместно проектировала чипы для своих устройств Surface. "Эти усилия основаны на этом опыте", говорит Боркар. "В 2017 году мы начали проектирование аппаратного стека облака, и мы начали этот путь, который ведет нас к созданию наших новых кастомных чипов".

Новые чипы Azure Maia AI и Azure Cobalt CPU оба созданы внутри Microsoft, в сочетании с глубоким обновлением всего стека облачных серверов для оптимизации производительности, энергопотребления и стоимости. "Мы переосмысливаем инфраструктуру облака для эры искусственного интеллекта и буквально оптимизируем каждый уровень этой инфраструктуры", - говорит Боркар.

Azure Cobalt CPU, названный в честь синего пигмента, представляет собой 128-ядерный чип, построенный на дизайне Arm Neoverse CSS и настроенный для использования Microsoft. Он предназначен для обеспечения общих облачных услуг на Azure. "Мы уделили много внимания не только его высокой производительности, но также тому, чтобы быть внимательными к управлению энергопотреблением", - объясняет Боркар. "Мы сделали некоторые очень намеренные выборы дизайна, включая возможность контролировать производительность и энергопотребление для каждого ядра и для каждой виртуальной машины".

На данный момент Microsoft тестирует свой процессор Cobalt на нагрузках, таких как Microsoft Teams и SQL Server, с планами предоставить виртуальные машины клиентам в следующем году для различных нагрузок. Хотя Боркар не хотела проводить прямые сравнения с серверами Amazon Graviton 3, доступными на AWS, предполагается, что будет заметный прирост производительности по сравнению с серверами на базе Arm, которые в настоящее время использует Microsoft для Azure. "Наши первоначальные тесты показывают, что наша производительность на 40% лучше, чем в настоящее время в наших центрах обработки данных, использующих коммерческие серверы Arm", - говорит Боркар. Полные технические характеристики или бенчмарки Microsoft пока не раскрывает.

AI-акселератор Maia 100 от Microsoft, названный в честь яркой синей звезды, предназначен для выполнения облачных нагрузок AI, таких как обучение больших языковых моделей и вывод. Его будут использовать для выполнения некоторых из крупнейших нагрузок AI компании на Azure, включая часть многомиллиардного партнерства с OpenAI, где Microsoft обеспечивает всю нагрузку OpenAI. Гигант программного обеспечения сотрудничает с OpenAI на этапах проектирования и тестирования Maia.

"Мы были в восторге, когда Microsoft впервые поделилась своими дизайнами для чипа Maia, и мы работали вместе над их уточнением и тестированием с нашими моделями", - говорит Сэм Альтман, CEO OpenAI. "AI-архитектура Azure, теперь оптимизированная до силикона с помощью Maia, открывает путь для обучения более мощных моделей и делает эти модели дешевле для наших клиентов".

Изготовленный по процессу TSMC на 5-нанометровой технологии, Maia имеет 105 миллиардов транзисторов - примерно на 30% меньше, чем 153 миллиарда на чипе AMD, конкурента Nvidia MI300X AI GPU. "Maia поддерживает нашу первую реализацию данных суб 8-битных типов, MX типов данных, чтобы совместно проектировать аппаратное и программное обеспечение", - говорит Боркар. "Это помогает нам поддерживать более быстрое обучение моделей и времена вывода".

Microsoft является частью группы, включающей AMD, Arm, Intel, Meta, Nvidia и Qualcomm, которые стандартизируют следующее поколение форматов данных для моделей AI. Компания также строит на сотрудничестве и открытой работе Open Compute Project (OCP) для адаптации целых систем под нужды AI.

"Maia - это первый полностью жидкостный серверный процессор, созданный Microsoft", раскрывает Боркар. "Цель здесь - обеспечить более высокую плотность серверов с более высокой эффективностью. Поскольку мы переосмысливаем весь стек, мы преднамеренно думаем через каждый уровень, поэтому эти системы фактически поместятся в нашем текущем футпринте центра обработки данных".

Это важно для Microsoft, чтобы быстро разворачивать эти AI-серверы без необходимости выделения для них места в центрах обработки данных по всему миру. Microsoft создала уникальный стеллаж для размещения плат Maia, включая "побочный" жидкостный охладитель, который работает подобно радиатору в автомобиле или усовершенствованному игровому ПК для охлаждения поверхности чипов Maia.

Помимо обмена данными MX, Microsoft также делится своими дизайнами стоек с партнерами, чтобы они могли использовать их на системах с другими чипами. Однако дизайны чипов Maia не будут широко распространяться, Microsoft сохраняет их внутри компании.

Maia 100 в настоящее время тестируется на GPT 3.5 Turbo, той же модели, которая обеспечивает работу ChatGPT, Bing AI и GitHub Copilot. Microsoft находится на ранних этапах развертывания, и, подобно Cobalt, она пока не готова раскрывать точные технические характеристики или бенчмарки производительности Maia.

Теперь ключевым будет то, насколько быстро Microsoft внедрит Maia, чтобы ускорить развертывание своих обширных амбиций в области искусственного интеллекта, и как эти чипы повлияют на ценообразование на использование облачных услуг AI. Microsoft еще не готова говорить о новом ценообразовании серверов, но мы уже видели, что компания тихо запустила Copilot for Microsoft 365 за дополнительную ежемесячную плату в 30 долларов с пользователя.

Copilot for Microsoft 365 в настоящее время доступен только самым крупным клиентам Microsoft, и предприятия должны обязаться к использованию его нового AI-помощника для Office, чтобы попасть в список.