NVIDIA сообщает, что "DGX H100 может обрабатывать один запрос вывода за раз. Размер пакета обеспечивает максимально быстрое время отклика".
Помимо опровержения претензий AMD, NVIDIA представила и доказпательства. Она опубликовала график фактической производительности ее аппаратного и программного обеспечения. Данные отражают результаты производительности сервера DGX H100 с восемью графическими процессорами H100 на модели Llama 2 70B.
Любой, кто захочет подтвердить эти утверждения сможет это сделать, поскольку NVIDIA делится информацией необходимой для воспроизведения результатов. Сообщение в блоге содержит командные строки для сценариев используемых NVIDIA для построения модели, а также сценарии сравнительного тестирования, используемые для сбора данных.
Удивительно, что AMD не позаботилась о том, чтобы предоставляемые ею данные были настолько точными, насколько это необходимо, поскольку проверка фактов NVIDIA или энтузиастами LLM была лишь вопросом времени. Если AMD хочет обогнать NVIDIA в борьбе за долю рынка ИИ, подобные ошибки необходимо устранить.