Microsoft Azure объявила о доступности инстансов ND A100 v4, своих самых мощных виртуальных машин на базе ускорителей NVIDIA A100 для работы с ИИ и высокопроизводительных вычислений (HPC) суперкомпьютерного класса. ND A100 v4 имеет восемь NVIDIA A100 (40 Гбайт), 96 ядер CPU (AMD EPYC), 900 Гбайт RAM, локальное NVMe-хранилище на 6,5 Тбайт и подключение HDR InfiniBand, обеспечивающее пропускную способность 200 Гбит/с на каждый ускоритель, т.е. суммарно 1,6 Тбит/с.
Стоимость аренды базового инстанса Standard_ND96asr_v4 указанной выше конфигурации начинается от $27,2/час. Для наиболее требовательных рабочих нагрузок возможно создание кластеров ND A100 v4, объединяющих с помощью InfiniBand тысячи ускорителей.
Чтобы упростить и ускорить разработку, каталог NVIDIA NGC предлагает готовые к использованию платформы приложений, оптимизированные для GPU, контейнеры, предварительно обученные модели, библиотеки, SDK и Helm-пакеты. Виртуальные машины ND A100 v4 также поддерживаются Azure Machine Learning, сервисом для интерактивной разработки ИИ, распределённого обучения, инференса и автоматизации с помощью ML Ops.
Развёртывание систем машинного обучения на базе ND A100 v4 упрощается с помощью NVIDIA Triton Inference Server, открытого решения, интегрированного с Azure ML и способного максимизировать производительность и использование как графического, так и центрального процессора, и минимизировать эксплуатационные расходы на развёртывание. Кроме того, вскоре появится возможность использования Azure Kubernetes Service для развёртывания и управления контейнерными приложениями на ND A100 v4.