Найти в Дзене

Сервер для четырёх GPU NVIDIA A100 на базе Supermicro

Пришла задача подобрать сервер на базе Supermicro для четырёх видеокарт NVIDIA A100 80GB PCIe GPU. Базовые требования: Будем подбирать. Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом. Охлаждение GPU пассивное, необходимы соответствующие вентиляторы. Краткая спецификация NVIDIA A100 80GB PCIe NVLINK Для поддержки NVLINK необходима установка карт попарно рядом. В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста. Питание GPU Расположение разъёма питания: Сервер Supermicro На базе Supermicro был подобран сервер GPU SuperServer SYS-741GE-TNRT. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможн
Оглавление

Пришла задача подобрать сервер на базе Supermicro для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.

Базовые требования:

  • Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
  • Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
  • Возможность использовать NVLINK.
  • Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
  • Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
  • ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.

Будем подбирать.

Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.

Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.

Краткая спецификация NVIDIA A100 80GB PCIe

  • Product SKU
    P1001 SKU 230
    NVPN: 699-21001-0230-xxx
  • Total board power
    300 W default
    300 W maximum
    150 W minimum
  • Thermal solution: Passive
  • Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
  • GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
  • PCI Express interface: PCI Express 4.0 ×16
  • Power connectors and headers: One CPU 8-pin auxiliary power connector

Для поддержки NVLINK необходима установка карт попарно рядом.

-2
  • Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
  • Всего NVLINK Rx и Tx линий поддерживается: 96
  • Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
  • Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с

В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.

Питание GPU

Расположение разъёма питания:

-3

Сервер Supermicro

На базе Supermicro был подобран сервер GPU SuperServer SYS-741GE-TNRT. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK. Сервер дополнительно имеет возможность установки в стойку.

https://www.supermicro.com/en/products/system/gpu/tower/sys-741ge-tnrt

В сервере имеется материнская плата Super X13DEG-QT

https://www.supermicro.com/en/products/motherboard/X13DEG-QT

-4
  • Поддержка возможности установки до двух процессоров 4th Gen Intel Xeon Scalable (До 350W TDP)
  • Слоты DIMM максимальным объёмом до 4TB: 16x 256 GB DRAM Memory Type: 4800MHz ECC DDR5
  • 4 слота PCIe 5.0 x16 (double-width) (можно поставить 4 полноразмерных двухслотовых GPU)
  • 3 слота PCIe 5.0 x16 (single-width)
  • 2 слота M.2 NVMe для загрузки (M-Key 2280 и 22110)
  • Для GPU заявлено энергопотребление 300 Вт. БП стоят два, на 2 кВт.
  • Уровень шума не указан.
-5

Диски

Поддержка до 8 дисков NVMe, SAS, SATA 3.5'. Есть поддержка программного массива на чипе Intel C741. В нашем случае достаточно 2 дисков SATA HDD на 2 ТБ и 1 диск SATA SSD на 1 TB с переходником или M.2 NVMe на 1 ТБ.

Например:

  • 1x Samsung Твердотельный накопитель Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW
  • 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS

Процессор

Материнская плата имеет возможность установки до двух процессоров 4th Gen Intel Xeon Scalable (До 350W TDP). Среди ксеонов нет таких, у которых были бы все три желаемых параметра: 32 ядра, 3 ГГц базовая частота и Турбо 4.5. Вот список:

https://www.supermicro.com/en/support/resources/cpu-4th-gen-intel-xeon-scalable

Из интересных и более-менее подходящих:

  • 8462Y+ 32 ядра, 2.8 базовая, 3.6 турбо
  • 6444Y 16 ядер, 3.6 базовая, 4.0 турбо (хороший вариант)
  • 6458Q 32 ядра, 3.1 базовая, 4.0 турбо, но тут написано про жидкостное охлаждение, нужно уточнить у поставщиков
  • 9462 32 ядра, 2.7 базовая, 3.1 турбо

Для первоначального старта с одной картой GPU достаточно одного процессора, при этом будут работать:

  • PCIe слоты: 2, 4, 10 (достаточно для 2 GPU и ещё одного устройства типа сетевой карты)
  • NVMe разъёмы P1_NVME0/1, P1_NVME2/3
  • M.2 слоты

Память

Поддерживается: 16 DIMM slots до 4TB 3DS ECC RDIMM, DDR5-4800MHz.

  • Memory Type 4800/4400/4000 MT/s ECC DDR5 RDIMM (3DS) 256GB 4800MT/s
  • DIMM Sizes 16GB, 32GB, 64GB, 128GB, 256GB
  • RDIMM: 16GB, 32GB, 64GB, 128GB, 256GB

В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 4800 MT/s.

Сеть

В сервере встроено два порта 2x 10GbE BaseT. Для организации гигабитной сети понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB.

Примеры:

  • Сетевой адаптер BROADCOM BCM5720-2P (2 порта)

Заключение

В итоге получилась такая начальная конфигурация:

  • Сервер GPU SuperServer SYS-741GE-TNRT.
  • Один процессор Intel Xeon 4 поколения 6444Y 16 ядер, 3.6 базовая, 4.0 турбо.
  • Память 512 ГБ.
  • NVIDIA A100 80GB PCIe GPU.
  • Сетевая карта 1 гигабит PCIe, двухпортовая.
  • Два HDD с оборотам 7200 RPM объёмом 2 ТБ или более.
  • M.2 NVMe диск 1 ТБ (Samsung 980 PRO 1 ТБ M.2 MZ-V8P1T0BW), можно аналог.

Источник:

Сервер для четырёх GPU NVIDIA A100 на базе Supermicro | internet-lab.ru

💰 Поддержать проект

Если вам понравилась статья, то ставьте 👍🏻 каналу.
Пишите комментарии, задавайте вопросы, подписывайтесь.