Найти тему
OVERCLOCKERS.RU

Графический процессор Nvidia H100 в 2 раза быстрее AMD Instinct MI300X

При запуске Instinct MI300X AMD заявила, что ее новейший графический процессор для искусственного интеллекта и высокопроизводительных вычислений (HPC) значительно быстрее, чем графический процессор Nvidia H100 в рабочих нагрузках вывода. Nvidia на этой неделе нашла время, чтобы показать, что ситуация прямо противоположная. При правильной оптимизации ее системы на базе H100 работают быстрее, чем серверы на базе Instinct MI300X.

Nvidia утверждает, что AMD не использовала оптимизированное программное обеспечение для DGX H100, которое использовалось для сравнения производительности с сервером на базе Instinct MI300X. Nvidia отмечает, что высокая производительность искусственного интеллекта зависит от надежной инфраструктуры параллельных вычислений, подразумевая CUDA, универсального набора инструментов, что, опять же, подразумевает CUDA, тщательно продуманных алгоритмов и отличного аппаратного обеспечения. По словам компании, без любого из вышеупомянутого фактора производительность будет неудовлетворительной.

По словам Nvidia, ее TensorRT-LLM имеет расширенную оптимизацию ядра, адаптированную для архитектуры Hopper, что является важным фактором повышения производительности для H100 и аналогичных графических процессоров. Такая тонкая настройка позволяет таким моделям, как Llama 2 70B, выполнять ускоренные операции FP8 на графических процессорах H100 без ущерба для точности выводов.

Чтобы доказать свою точку зрения, Nvidia представила показатели производительности одного сервера DGX H100, оснащенного восемью графическими процессорами H100 и моделью Llama 2 70B. Система DGX H100 способна выполнить одну задачу вывода всего за 1,7 секунды при одном проходе, что означает обработку одного запроса за раз, а это меньше, чем у восьмипроцессорной системы AMD MI300X выполняющей ту же работу за 2,5 секунды.

Однако, чтобы сбалансировать время ответа и общую эффективность, облачные сервисы часто используют стандартное время ответа для определенных задач. Такой подход позволяет им обрабатывать несколько запросов на вывод, тем самым увеличивая общее количество выводов сервера в секунду. Этот метод измерения производительности, включающий установленное время отклика, также является распространенным стандартом в отраслевых тестах, таких как MLPerf.

Даже незначительные компромиссы во времени ответа могут значительно увеличить количество выводов, которыми сервер может управлять одновременно. Например, с заранее заданным временем ответа 2,5 секунды восьмипроцессорный сервер DGX H100 может выполнять более пяти логических выводов Llama 2 70B каждую секунду.

📃 Читайте далее на сайте