Найти тему
ServerNews

NVIDIA заявила, что DPU BlueField-2 установили рекорд скорости для NVMe-oF — но к нему есть вопросы

Технология NVMe-over-Fabrics (NVMe-oF) прочно заняла своё место в производительных системах хранения данных. В случае NVMe/TCP о мировом рекорде заявила Fungible, которая использует во флеш-массивах FS1600 DPU собственной разработки — она получила 10 млн IOPS на случайных операциях, тогда как без DPU удалось достичь только 6,55 млн IOPS при полной загрузке 128-ядерного сервера. NVIDIA ответила на это собственным тестом.

Вчера компания опубликовала шокирующие результатыDPU BlueField-2 позволил добиться 41,4 млн IOPS, что более чем в четыре раза лучше рекорда Fungible. Прямо имя конкурента не упоминается, но иных показателей в 10 млн IOPS никакой другой вендор и не заявлял. На блоках размером 4К результат NVIDIA составил более 5 млн IOPS, с блоками 512 байт разброс составил от 7 до более чем 20 млн IOPS.

Изображения: NVIDIA
Изображения: NVIDIA

NVIDIA использовала пару серверов HPE Proliant DL380 Gen 10 Plus, каждый с двумя процессорами Intel Xeon Platinum 8380 (Ice Lake-SP, 40C/80T, 2,3-3,4 ГГц, 60 Мбайт L3-кеш, 270 Ватт TDP) и 512 Гбайт DRAM. В каждом узле к шине PCIe 4.0 было подключено две платы NVIDIA BlueField-2P (Performance-версия) с двумя портами 100GbE каждая — ширина канала между узлами составила 400 Гбит/с. Коммутатор не использовался, серверы напрямую соединялись посредством пассивных медных кабелей. В качестве ОС использовалась RHEL 8.3 c ядрами Linux 4.18 и 5.15. Инициаторы применялись как комплектные, так и из состава SPDK.

Результаты тестирования для режима TCP
Результаты тестирования для режима TCP

Тестирование проводилось для NVNe/RoCE и NVMe/TCP в сценариях «100% чтения», «100% записи» и «50/50% чтение-запись». Наилучшие результаты получены при использовании SPDK на обеих системах (но за счёт повышенной нагрузки на CPU). Линейные показатели действительно впечатляют, приближаясь к лимиту канала 4×100GbE, а в режиме 50/50 для 4K с RoCE удалось получить и вовсе 550 Гбит/с (всё-таки дуплекс). Казалось бы, новый, блестящий мировой рекорд у NVIDIA в кармане, однако возникает ряд сомнений по поводу методики тестирования.

...и для RoCE
...и для RoCE

Во-первых, подозрение вызывает отсутствие в спецификациях данных о конфигурации дисковых подсистем. С учётом того, что используемый сервер имеет 24 SFF-отсека, речь могла бы идти о соответствующем числе Intel Optane P5800X — один такой SSD выдаёт около 1,5 млн IOPS на 4K-блоках и до 5 млн IOPS на блоках размером 512B. Цифры, казалось бы, неплохо согласовываются, хотя такая конфигурация и требует всех 128 линий PCIe 4.0 (по x4 на каждый из 24 гипотетических SSD и два x16 для DPU).

Быстрейшие на сегодня SSD в стандартном форм-факторе: Intel Optane P5800X (Изображение: Intel)
Быстрейшие на сегодня SSD в стандартном форм-факторе: Intel Optane P5800X (Изображение: Intel)

Полное торжество идей NVMe-oF? Не совсем. Ресурс Serve The Home уточнил некоторые детали тестирования у NVIDIA. Так, выяснилось, что в тестовых сценариях компания вообще не использовала подсистему накопителей, отправляя всё в /dev/null. По сути, измерялись передача данных «от Xeon до Xeon», т.е. в первую очередь скорость работы сети. Более того, NVIDIA подтвердила, что массив Arm-ядер на борту BlueField-2 толком не использовался, а весь трафик шёл через стандартный «кремний» ConnectX, также имеющийся в данном DPU.

Сложно сказать, насколько полезно такое тестирование. Конечно, оно демонстрирует великолепные сетевые характеристики BlueField-2, их работу в стандартной серверной среде, готовность программного стека, а также работоспособность систем на базе Xeon Ice Lake-SP с периферией стандарта PCIe 4.0. Однако вопрос взаимодействия BlueField-2 с реальной физической дисковой подсистемой остаётся открытым, поскольку нынешние тесты сравнивать с результатом Fungible затруднительно.