Опубликованы результаты MLPerf HPC 1.0, набора отраслевых тестов для оценки производительности машинного обучения, впервые вышедшего в мае 2018 года. Новые бенчмарки MLPerf касаются вычислений, которые ускоряют и дополняют моделирование на суперкомпьютерах с помощью ИИ. Системы на базе решений NVIDIA победили в четырёх из пяти тестов MLPerf HPC 1.0.
По словам компании, последние достижения в области молекулярной динамики, астрономии и климатического моделирования стали возможными благодаря совместному использованию HPC и ИИ. Это тенденция способствует внедрению ИИ-систем экзафлопсного класса (в данном случае речь идёт о вычислениях пониженной точности) как в науке, так и в промышленности.
Тесты MLPerf поддерживаются MLCommons, отраслевой группой, включающей Alibaba, Google, Intel, Meta, NVIDIA и т.д. Бенчмарки MLPerf HPC включают два вида тестов. В первом измеряется время, необходимое на тренировку модели (сильное масштабирование, strong scaling), во втором — общая пропускная способность системы, то есть сколько моделей получается натренировать за заданный промежуток времени.
В первом варианте тестов по сравнению с лучшими результатами в MLPerf 0.7 в прошлом году NVIDIA в 5 раз улучшила результаты в тесте CosmoFlow (обработка изображений с телескопов), а в DeepCam (детектирование ураганов и воздушных потоков) — почти в 7 раз. А суперкомпьютер Perlmutter лидирует в бенчмарке opencatalyst (отслеживание того, насколько хорошо предсказываются межмолекулярные взаимодействия) с использованием 2048 ускорителей NVIDIA A100.
В тестах второго типа NVIDIA лидирует в DeepCam — 16 узлов на задание и 256 одновременных заданий. Все тесты проводились на NVIDIA Selene, собственной системе NVIDIA и крупнейшем в мире промышленном суперкомпьютере. Для профилирования нагрузок использовались инструменты NVIDIA DALI (ускорение обработки данных) и CUDA Graphs (снижение задержки для небольших порций данных для эффективного масштабирования до 1024 и более ускорителей).
Также компания задействовала NVIDIA SHARP, ключевой компонент NVIDIA MagnumIO, для ускорения обмена данными и выгрузки данных в сеть коммутатора NVIDIA Quantum InfiniBand. Все эти инструменты не являются закрытыми. Всё ПО для проведения самих тестов доступно в репозитории MLPerf. NVIDIA также регулярно обновляет необходимые компоненты в своём каталоге NGC.
Всего в этом раунде MLPerf HPC семь из восьми участников использовали ускорители NVIDIA. Среди них есть немецкий суперкомпьютерный центр Jülich Supercomputing Centre, Швейцарский национальный вычислительный центр, а также Аргоннская национальная лаборатория и Национальная лаборатория им. Лоуренса, Национальный центр суперкомпьютерных приложений и Техасский центр перспективных вычислений в США. Компания отметила, что хорошие результаты в тестах — результат зрелости программно-аппаратной ИИ-платформы NVIDIA.