Найти тему
ServerNews

SC20: Microsoft Azure анонсировала публичную превью-версию инстансов ND A100 v4

Команда Microsoft Azure анонсировала на конференции SC20 публичную превью-версию семейства виртуальных машин ND A100 v4, из которых можно сформировать суперкомпьютера мирового класса.

Как утверждает Azure, каждое развертывание кластера ND A100 v4 соперничает с крупнейшими в отрасли ИИ-суперкомпьютерами с точки зрения масштабирования и передовых технологий.

Каждая отдельная виртуальная машина имеет:

  • Восемь новейших графических процессоров NVIDIA A100 с тензорным ядром и 40 Гбайт памяти HBM2, предлагающих повышение производительности каждого графического процессора в 1,7–3,2 раза по сравнению с графическими процессорами V100 или до 20 раз за счёт многоуровневых функций, таких, как новые режимы смешанной точности, функция разреженности и NVIDIA Multi-Instance GPU (MIG), для обеспечения значительно более низкой общей стоимости обучения с улучшенным временем на выполнение решения.
  • Интерконнект на уровне виртуальных машин на основе NVLINK 3.0 + NVswitch.
  • Один 200-Гбит канал InfiniBand HDR на каждый графический процессор с полной поддержкой NCCL2 и GPUDirect RDMA с суммарной пропускной способностью 1,6 Тбит/с на виртуальную машину.
  • Внешнюю сеть Azure со скоростью 40 Гбит/с.
  • 6,4 Тбайт локального хранилища NVMe.
  • Опцию объединения тысяч графических процессоров в InfiniBand-фабрику, с возможностью их взаимодействия без необходимости планирования с учетом топологии
  • 96 vCPU AMD Rome с 900 Гбайт оперативной памяти DDR4.
  • Поддержку стандарта PCIe Gen 4 для максимально быстрого соединения между графическим процессором, сетью и центральным процессором — производительность ввода-вывода до двух раз выше, чем у платформ на базе PCIe Gen 3.

Как и другие виртуальные машины с графическим процессором, Azure ND A100 v4 также доступен со службой машинного обучения Azure (AML) для интерактивной разработки ИИ, распределённого обучения, пакетного вывода и автоматизации с помощью ML Ops. Клиенты смогут выбрать развертывание с помощью AML или традиционных масштабируемых наборов виртуальных машин, а вскоре и многих других вариантов развертывания на базе Azure, таких как служба Azure Kubernetes Service. При этом оптимизированная конфигурация систем и серверной сети InfiniBand выполняется автоматически.

Azure предоставляет настроенную виртуальную машину (с предварительно установленными необходимыми драйверами и библиотеками) и среды на основе контейнеров, оптимизированные для семейства ND A100 v4. Примеры готовых наборов параметров и блокноты Jupyter помогают пользователям быстро приступить к работе с несколькими фреймворками, включая PyTorch, TensorFlow, а также с современными моделями обучения, такими как BERT. Отправить запрос на доступ к новым инстансам можно по этой ссылке.