Найти в Дзене

AMD выпускает ROCm 7.2: умнее, быстрее и масштабируемее для задач ИИ

Современные системы искусственного интеллекта давно вышли за рамки «просто мощного железа». Сегодня ключевую роль играет программная экосистема — от компиляторов и библиотек до сетевого взаимодействия и управления энергопотреблением. Именно в этом направлении AMD делает очередной шаг вперёд, представляя ROCm 7.2 — обновлённую платформу для ИИ и высокопроизводительных вычислений (HPC). Новый релиз ориентирован на реальные производственные нагрузки, крупные модели и многопроцессорные конфигурации. AMD заявляет о росте производительности, улучшенном масштабировании и повышенной надёжности — особенно для графических процессоров AMD Instinct последних поколений. ROCm 7.2 приносит комплексные улучшения во всём программном стеке: от матричных вычислений и компиляторов до сетевого взаимодействия и виртуализации. Платформа стала заметно более зрелой и готовой к корпоративному использованию. Одно из ключевых направлений обновления — библиотека hipBLASLt, критически важная для задач с интенсивным
Оглавление

Современные системы искусственного интеллекта давно вышли за рамки «просто мощного железа». Сегодня ключевую роль играет программная экосистема — от компиляторов и библиотек до сетевого взаимодействия и управления энергопотреблением. Именно в этом направлении AMD делает очередной шаг вперёд, представляя ROCm 7.2 — обновлённую платформу для ИИ и высокопроизводительных вычислений (HPC).

Новый релиз ориентирован на реальные производственные нагрузки, крупные модели и многопроцессорные конфигурации. AMD заявляет о росте производительности, улучшенном масштабировании и повышенной надёжности — особенно для графических процессоров AMD Instinct последних поколений.

Что нового в ROCm 7.2

ROCm 7.2 приносит комплексные улучшения во всём программном стеке: от матричных вычислений и компиляторов до сетевого взаимодействия и виртуализации. Платформа стала заметно более зрелой и готовой к корпоративному использованию.

Оптимизация hipBLASLt и ускорение GEMM

Одно из ключевых направлений обновления — библиотека hipBLASLt, критически важная для задач с интенсивными операциями GEMM (умножение матриц).

В ROCm 7.2 появились:

  • расширенные возможности тонкой настройки;
  • механизм восстановления из логов для воспроизводимой производительности;
  • перестановка матриц A/B для оптимизации доступа к памяти;
  • улучшенные инструменты бенчмаркинга и аналитики.

В результате AMD получила измеримый прирост производительности на GPU Instinct MI200 и MI300 по сравнению с ROCm 7.1, что напрямую влияет на обучение и инференс крупных моделей ИИ.

Поддержка FP8 и FP4: ставка на эффективность

ROCm 7.2 расширяет поддержку низкоточных форматов FP8 и FP4 на уровне компиляторов и графов вычислений:

  • rocMLIR
  • MIGraphX

Это критически важно для современных и будущих ИИ-моделей, где снижение точности позволяет кратно увеличить производительность и энергоэффективность без существенной потери качества. Поддержка FP8/FP4 также является фундаментом для запуска новых GPU MI350 и дальнейшего развития архитектур AMD.

Оптимизация реальных ИИ-моделей

AMD делает акцент не на синтетических тестах, а на реальных сценариях использования. В ROCm 7.2 оптимизированы популярные крупные модели:

  • Llama 3.1 405B — для MI350X и MI355X;
  • Llama 3 70B и Llama 2 70B — с полной загрузкой возможностей архитектуры;
  • GLM-4.6 — улучшения на уровне GEMM для MI300X;
  • ускорения в DeepEP для более эффективного инференса.

Результат — выше пропускная способность, ниже задержки и лучшее использование памяти GPU.

Улучшенная межпроцессорная связь: от GDA до RCCL

В ROCm 7.2 AMD серьёзно прокачала коммуникации между GPU:

  • rocSHMEM получил поддержку GPUDirect Async (GDA) — графические процессоры могут обмениваться данными напрямую, минуя CPU;
  • поддержка внутриузловой и межузловой связи через RDMA NIC;
  • снижение задержек и нагрузки на центральный процессор.

Библиотека RCCL стала более «умной» и топологически осведомлённой:

  • поддержка конфигураций с 4 сетевыми адаптерами;
  • распределение коллективных операций по всем каналам;
  • уменьшение конфликтов и рост суммарной пропускной способности.

Кроме того, RCCL получил улучшенные алгоритмы из NCCL 2.28, что повышает стабильность и масштабируемость распределённого обучения.

SR-IOV и RAS: шаг в сторону облаков и enterprise

Для GPU MI350X и MI355X в ROCm 7.2 улучшены функции SR-IOV и RAS, что особенно важно для облачных и корпоративных сред:

  • защита от ошибок памяти и page-fault’ов;
  • очистка энергозависимой памяти;
  • защита MMIO от фаззинга;
  • повышенная изоляция виртуальных окружений;
  • паритет возможностей с конкурентными платформами.

Это делает GPU AMD более привлекательными для гипермасштабируемых и многопользовательских сценариев.

Компилятор с поддержкой ThinLTO

ROCm 7.2 добавляет поддержку ThinLTO для GPU AMD. Это позволяет:

  • оптимизировать код сразу на уровне нескольких объектных файлов;
  • улучшить inlining, специализацию и удаление «мёртвого» кода;
  • сохранить высокую скорость сборки.

Особенно важно это для крупных ИИ-фреймворков — PyTorch, Triton, XLA и кастомных вычислительных стеков.

Управление питанием узлов (NPM)

Для многопроцессорных систем AMD внедрила Node Power Management:

  • динамическое распределение мощности между GPU;
  • автоматическая регулировка частот;
  • соблюдение заданных лимитов энергопотребления узла.

NPM поддерживается на MI350X и MI355X, работает как в bare-metal, так и в виртуализированных средах KVM SR-IOV и контролируется через AMD SMI.

Итог

ROCm 7.2 — это не просто очередное обновление, а серьёзный шаг к зрелой, производственной экосистеме для ИИ и HPC. Платформа стала:

  • быстрее за счёт оптимизации GEMM и hipBLASLt;
  • эффективнее благодаря FP8/FP4;
  • масштабируемее за счёт улучшенной сетевой логики;
  • надёжнее для облаков и enterprise.

AMD явно нацелена на конкуренцию в сегменте крупномасштабного ИИ — и ROCm 7.2 показывает, что программная экосистема Instinct продолжает уверенно догонять и в ряде аспектов превосходить альтернативы.