AMD Instinct MI100 — первый ускоритель на базе 7-нм архитектуры CDNA, которая в отличие от RDNA ориентирована на вычисления, а не на графику, хотя и сохраняет некоторые компоненты для рендеринга. Тем не менее, пути RDNA и CDNA окончательно разошлись, и новый ускоритель предназначен исключительно для высокопроизводительных вычислений и ИИ.
Первенец серии MI100 имеет 120 CU, которые содержат новые блоки для матричных операций, которые важны в ИИ-нагрузках. Но работают они не в ущерб «классическим» вычислениям — пиковая FP64-производительность составляет 11,5 Тфлопс, а для FP32 ровно в два раза больше, 23 Тфлопс. Эти показатели выше, чем у NVIDIA A100, и AMD настаивает, что именно такой прирост производительности нужен для запланированного достижения заветной производительности в один экзафлопс.
Впрочем, на другом конце спектра, в bfloat16-вычислениях, новинка от AMD проигрывает — 92,3 Тфлопс против 312 Тфлопс на Tensor Core. Прочие приведённые значения производительности для других показателей точности вычислений варьируются. Кроме того, PCIe-версия A100 в силу более низкого энергопотребления на реальных задачах может быть несколько медленнее, чем SXM-версия. А Instinct MI100, пока во всяком случае, доступна только в форм-факторе полноразмерной PCIe-карты с потреблением на уровне 300 Вт.
Карта оснащена 32 Гбайт HBM2-памяти c пропускной способностью 1,23 Тбайт/с, что несколько меньше, чем у PCIe-версии NVIDIA A100: 40 Гбайт HBM2e и 1,555 Тбайт/с соответственно. У обеих карт есть основной интерфейс PCIe 4.0 x16 (64 Гбайт/с) и дополнительная шина для прямого обмена данными между ускорителями. В случае NVIDIA это NVLink (600 Гбайт/с), который для PCIe-версии ограничен только двумя картами, а в случае AMD — это Infinity Fabric (IF).
У MI100 есть три IF-интерфейса с пропускной способностью 92 Гбайт/c (суммарно 276 Гбайт/с), что даёт возможность объединить до четырёх ускорителей, которые могут общаться друг с другом по схеме каждый-с-каждым. Причём оно не зависит от того, по какому интерфейсу, PCIe 3.0 или 4.0, сами ускорители подключены к хосту. Естественно, наиболее оптимальным вариантом для системы в целом будет связка из AMD EPYC и новых MI100.
Основной же козырь AMD, как это зачастую бывало и ранее — это стоимость новинок. Точные цены компания не приводит, но говорит о том, что по показателю производительность на доллар они 1,8-2,1 раза лучше, чем NVIDIA A100. Среди первых систем, для которых сделана валидация новых ускорителей есть Dell PowerEdge R7525, Gigabyte G482-Z54, HPE Apollo 6500 Gen10 Plus, Supermicro AS-4124GS-TNR. Избранные партнёры уже получили новые ускорители и системы на их основе для оценки производительности и адаптации ПО.
Вместе с выходом Instinct MI100 AMD представила и новый мажорный релиз ROCm 4.0, открытой программной платформы для HPC и ИИ. AMD особо отмечает рост производительности, простоту использования и готовность множества программных решений к работе с новым релизом и новым же «железом». И главное — простоту портирования кода на новую платформу, в первую очередь с NVIDIA CUDA. У некоторых разработчиков на это ушло буквально от нескольких часов до одного дня, или до нескольких недель в более сложных случаях.
Новая программно-аппаратная платформа на базе AMD EPYC, Instinct M100 и ROCm 4.0 ляжет в основу грядущих суперкомпьютеров Frontier и Pawsey. А вот будут ли новые машины с MI100 в свежем рейтинге TOP500, мы узнаем уже завтра. Конкуренцию новинкам составят новые же ускорители NVIDIA A100 с удвоенным объёмом памяти HBM2e.