Найти в Дзене

Сервер для четырёх GPU NVIDIA A100 на базе Lenovo

Пришла задача подобрать сервер на базе Lenovo для четырёх видеокарт NVIDIA A100 80GB PCIe GPU. Базовые требования: Будем подбирать. Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом. Охлаждение GPU пассивное, необходимы соответствующие вентиляторы. Краткая спецификация NVIDIA A100 80GB PCIe NVLINK Для поддержки NVLINK необходима установка карт попарно рядом. В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста. Питание GPU Расположение разъёма питания: Сервер Lenovo На базе Supermicro был подобран сервер Lenovo ThinkSystem ST650 V3. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарн
Оглавление

Пришла задача подобрать сервер на базе Lenovo для четырёх видеокарт NVIDIA A100 80GB PCIe GPU.

Базовые требования:

  • Корпус Standalone Tower. Установка в стойку не предусмотрена, сервер будет устанавливаться в офисе прямо у разработчиков под столом.
  • Видеокарта NVIDIA A100 80GB PCIe GPU, пока одна. Но нужно предусмотреть возможность расширения до четырёх GPU.
  • Возможность использовать NVLINK.
  • Процессор: желательно от 32 ядер на CPU, желательно присутствие турбобуста до 4.5 ГГц или высокая базовая частота, не меньше 3 ГГЦ.
  • Достаточно пара-тройка HDD по 2 ТБ и SSD на 1ТБ.
  • ОЗУ 512 ГБ, с возможностью расширения до 1 ТБ.

Будем подбирать.

Исходя из спецификации GPU сервер должен поддерживать установку четырёх двухслотовых видеокарт формата FHFL с энергопотреблением 300 Вт каждая. Карты подключаются через интерфейс PCI Express 4.0 ×16, питание 8-pin auxiliary. Для поддержки NVLINK необходима установка карт попарно рядом.

Охлаждение GPU пассивное, необходимы соответствующие вентиляторы.

Краткая спецификация NVIDIA A100 80GB PCIe

  • Product SKU
    P1001 SKU 230
    NVPN: 699-21001-0230-xxx
  • Total board power
    300 W default
    300 W maximum
    150 W minimum
  • Thermal solution: Passive
  • Mechanical Form Factor: Full-height, full-length (FHFL) 10.5”, dual-slot
  • GPU SKU: GA100-893FF, GA100-893FFF, GA100-893HH, GA100-893HHH
  • PCI Express interface: PCI Express 4.0 ×16
  • Power connectors and headers: One CPU 8-pin auxiliary power connector

Для поддержки NVLINK необходима установка карт попарно рядом.

-2
  • Всего NVLink bridges поддерживает NVIDIA A100 80G: 3
  • Всего NVLINK Rx и Tx линий поддерживается: 96
  • Передача данных NVIDIA A100 80GB по линии NVLink (в каждом направлении): 50 Gbps
  • Максимальная пропускная способность NVLink bandwidth: 600 ГБ/с

В качестве мостов используются 2-slot NVLink Bridge для NVIDIA A100 80GB PCIe part number: 900-53651-0000-000. На каждую пару ускорителей требуется три моста.

Питание GPU

Расположение разъёма питания:

-3

Сервер Lenovo

На базе Supermicro был подобран сервер Lenovo ThinkSystem ST650 V3. Это напольный вариант двухпроцессорного сервера, в который можно установить до 4 GPU, которых имеется возможность попарно соединить через NVLINK. Сервер дополнительно имеет возможность установки в стойку. Сервер ThinkSystem ST650 V3 в башенном корпусе обеспечивает масштабируемую производительность и оснащается двумя процессорами Intel Xeon Scalable 4-го поколения.

https://www.lenovo.com/ru/ru/data-center/servers/towers/ThinkSystem-ST650-V3/p/LEN21TS0022

-4
  • Поддержка возможности установки до двух процессоров 4th Gen Intel Xeon Scalable (До 250W TDP)
  • До 4 ТБ в 32 модулях DIMM объемом 128 ГБ; TruDDR5 с частотой 4800 МГц
  • До 9 разъемов PCIe (5 — Gen 5 и 4 — Gen 4)
  • Для GPU заявлено энергопотребление 300 Вт. БП стоят два, Titanium мощностью до 2600 Вт.
  • Уровень шума не указан.

Диски

До 32 отсеков для 2,5-дюймовых накопителей (включая 24 отсека NVMe) или 16 отсеков для 3,5-дюймовых накопителей (включая 16 отсеков NVMe). Встроенная поддержка SATA и NVMe с VROC RAID.

Например:

  • 1x Твердотельный накопитель Samsung SSD 870 QVO 1Tb MZ-77Q1T0BW
  • 2x Жёсткий диск Western Digital WD Re 2 ТБ WD2003FYYS

Поддержка HBA/RAID:

  • Встроенная поддержка SATA и NVMe с VROC RAID
  • Адаптеры RAID/HBA PCIe Gen 3, Gen 4 и Gen 5 (при наличии)
  • Широкий спектр 8-, 16- и 32-портовых адаптеров RAID
  • 8- и 16-портовые адаптеры HBA
  • Адаптеры NVMe Retimer для дополнительных 12 портов NVMe

Процессор

Материнская плата имеет возможность установки до двух процессоров 4th Gen Intel Xeon Scalable (До 250W TDP). Среди ксеонов нет таких, у которых были бы все три желаемых параметра: 32 ядра, 3 ГГц базовая частота и Турбо 4.5. Есть ограничение по мощности 250 Вт.

  • 6434 8 ядер, 3.7 базовая, 4.1 турбо
  • 6448H 32 ядра, 2.4 базовая, 3.2 турбо
  • 6434H 8 ядер, 3.7 базовая, 4.1 турбо

Достаточно одного процессора, схемы материнской платы нет, какие именно PCIe слоты будут работать — нужно уточнять у поставщиков.

Память

До 4 ТБ в 32 модулях DIMM объемом 128 ГБ; TruDDR5 с частотой 4800 МГц. В данном случае подойдёт 8 планок RDIMM по 64 ГБ или 4 планки по 128 ГБ с частотой 4800 MT/s

Сеть

В сервере встроено два порта 2x 10GbE BaseT, однако, они десятигигабитные. Для организации гигабитной сети понадобится любая гигабитная сетевая карта, можно через PCIe слот, можно через USB.

Примеры:

  • Сетевой адаптер BROADCOM BCM5720-2P (2 порта)

Заключение

В итоге получилась такая начальная конфигурация:

  • Сервер Lenovo ThinkSystem ST650 V3. В комплектации с корзиной 3.5'.
  • Один процессор Intel Xeon 4 поколения 6434 8 ядер, 3.7 базовая, 4.1 турбо (или другой на ваш выбор)
  • Память 512 ГБ
  • NVIDIA A100 80GB PCIe GPU
  • Сетевая карта 1 гигабит PCIe, двухпортовая
  • Два SATA HDD с оборотам 7200 RPM объёмом 2 ТБ или более
  • Один SATA SSD объёмом 1 ТБ или более (понадобится переходник)

P.S.

Есть ещё одна платформа: Башенный сервер ThinkSystem ST650 V2. Принцип тот же, только процессоры Intel Xeon третьего поколения со всеми вытекающими.

https://www.lenovo.com/ru/ru/data-center/servers/towers/ThinkSystem-ST650-V2/p/len21ts0001

Источник:

Сервер для четырёх GPU NVIDIA A100 на базе Lenovo | internet-lab.ru

💰 Поддержать проект

Если вам понравилась статья, то ставьте 👍🏻 каналу. Пишите комментарии, задавайте вопросы, подписывайтесь.