В среду компания AMD представила результаты тестов, в которых сравнивается производительность их графического процессора MI300X с Nvidia H100 GPU, чтобы продемонстрировать свои новейшие достижения в области искусственного интеллекта.
Используя модель LLama2-70B, система с восемью процессорами Instinct MI300X показала пропускную способность 21 028 токенов в секунду в серверном режиме и 23 514 токенов в автономном режиме в сочетании с процессором EPYC Genoa. Эти результаты немного уступают восьми ускорителям Nvidia H100, которые в серверном режиме достигают 21 605 токенов в секунду и 24 525 токенов в автономном режиме, работая с неуточненным процессором Intel Xeon.
При тестах с процессором EPYC Turin, MI300X продемонстрировал незначительно лучшие показатели, достигнув 22 021 токена в секунду в серверном режиме, что немного превышает результат H100. Однако в автономном режиме MI300X по-прежнему уступает системе H100 с результатом всего 24 110 токенов в секунду.
MI300X обладает большей емкостью памяти по сравнению с H100, что дает ему возможность запускать модели с 70 миллиардами параметров, такие как LLaMA2-70B, на одном графическом процессоре. Это позволяет избежать сетевых затрат, связанных с распределением модели на несколько графиков с использованием FP8. Каждый экземпляр Instinct MI300X может похвастаться 192 ГБ памяти HBM3 и максимальной пропускной способностью 5,3 ТБ/с. В отличие от него, Nvidia H100 поддерживает максимум 80 ГБ памяти HBM3 и достигает пропускной способности до 3,35 ТБ/с.
Эти результаты в значительной степени подтверждают недавние утверждения Intel о том, что ее чипы Blackwell и Hopper показывают заметное увеличение производительности в сравнении с конкурентами, включая AMD Instinct MI300X. Кроме того, Nvidia представила данные, которые показывают, что в тестах LLama2 система на базе восьми MI300X достигла всего 23 515 токенов в секунду при потреблении 750 Вт в режиме без подзарядки. В то же время, H100 имела скорость 24 525 токенов в секунду при потреблении 700 Вт, а результаты в серверном режиме также схожи: MI300X демонстрирует 21 028 токенов в секунду, в то время как H100 — 21 606 токенов при меньшем энергопотреблении.