Ранее ПЛИС Xilinx Versal уже обзавелись поддержкой HBM2e и на основе этой флагманской FPGA была создана платформа для инференс-систем VCK5000. Сейчас AMD анонсировала новую, существенно улучшенную версию этой платформы. Правда, речи об использовании сборок с памятью HBM не идёт, это пока прерогатива серии Alveo. Если верить заявлениям компании, новая версия в три раза производительнее первоначальной, а по общей стоимости владения (TCO) вдвое выгоднее NVIDIA T4.
Последнее неудивительно, так как T4 ведёт свою родословную от классических GPU и, неся на борту не только 320 тензорных ядер, но и 2560 ядер CUDA, не во всех задачах может похвастаться высокой энергоэффективностью. По оценкам Xilinx, VCK5000 может достигать 90 % от теоретической производительности (в Топс), а у решений NVIDIA, по словам «красных», этот показатель варьируется в пределах 34–42 %. Правда, на смену T4 приходит A2.
В основе VCK5000 лежит новейшая вариация Versal ACAP (7 нм), оптимизированная для применения в ИИ-системах. Именно на инференс-алгоритмах производительность новой версии была повышена в 3 раза. AMD говорит, что в новой версии удалось минимизировать простой логических блоков в ожидании данных из памяти, практически избавившись от «тёмного кремния».
Ускоритель выполнен в виде полноразмерной двухслотовой платы расширения с PCIe 4.0 x8. Он имеет конфигурируемый TDP (от 75 до 225 Вт), оснащён 16 Гбайт DDR4-памяти, 100GbE-подключением (два QSFP28) и развивает до 125 Топс на INT8-операциях при частоте ядер 1,25 ГГц. Теоретическая пиковая производительность новинки составляет 145 Топс. Это сопоставимо с показателями NVIDIA T4 (130 Топс), как и цена — $2745 против $2410.
Главное предназначение AMD VCK5000 — использование в качестве тестовой платформы при разработке инференс-систем и систем цифровой обработки сигналов на базе FPGA. Но благодаря гибкости, обеспечиваемой применением FPGA, ничто не мешает использовать данный ускоритель и в других целях. Также очевидно, что с обретением активов Xilinx AMD продолжит активно развивать направление ПЛИС-ускорителей для различных задач, включая HPC.