Найти в Дзене
DigiNews

Будущие графические процессоры AMD RDNA 5 могут получить улучшенную архитектуру «dual-issue» и более эффективное использование шейдерных блоков

Новый патч LLVM добавил V_FMA_F32, 3-операндную инструкцию FMA, и представил формат инструкций VOPD3 для RDNA 5. Оба этих изменения должны облегчить компиляторам использование выполнения с двойной выдачей, обходя строгие правила сопряжения, которые в противном случае ограничивали бы максимальную пропускную способность FP32 в определенных рабочих нагрузках. — tomshardware.com Ожидается, что следующее поколение графических процессоров Radeon от AMD станет значительным шагом вперед по сравнению с RDNA 4, и одна из проблем, которую, по-видимому, решает команда Red, — это выполнение с двойной выдачей (dual issue execution). Это способность графического процессора выполнять две инструкции за один такт — карты AMD обладают этой функцией с RDNA 3, но строгие правила сопряжения не всегда позволяли компиляторам использовать ее, ограничивая теоретическую пиковую производительность. Новый патч LLVM теперь предполагает, что AMD решит эту проблему в RDNA 5. Coelacanth’s Dream, издание, ориентированн

Новый патч LLVM добавил V_FMA_F32, 3-операндную инструкцию FMA, и представил формат инструкций VOPD3 для RDNA 5. Оба этих изменения должны облегчить компиляторам использование выполнения с двойной выдачей, обходя строгие правила сопряжения, которые в противном случае ограничивали бы максимальную пропускную способность FP32 в определенных рабочих нагрузках. — tomshardware.com

Ожидается, что следующее поколение графических процессоров Radeon от AMD станет значительным шагом вперед по сравнению с RDNA 4, и одна из проблем, которую, по-видимому, решает команда Red, — это выполнение с двойной выдачей (dual issue execution). Это способность графического процессора выполнять две инструкции за один такт — карты AMD обладают этой функцией с RDNA 3, но строгие правила сопряжения не всегда позволяли компиляторам использовать ее, ограничивая теоретическую пиковую производительность. Новый патч LLVM теперь предполагает, что AMD решит эту проблему в RDNA 5. Coelacanth’s Dream, издание, ориентированное на Linux, изучило новые изменения и обнаружило, что они ссылаются на gfx13, который является производным от gfx130, также известного как RDNA 5. Похоже, AMD добавляет новый формат инструкций под названием “VOPD3“, предназначенный для лучшего взаимодействия с двухпоточным VALU (Vector Arithmetic Logic Unit; шейдерный блок). Он должен быть более гибким, что облегчит компилятору использование выполнения с двойной выдачей.
На техническом уровне существующая система, известная как
VOPD, в основном работала только с более простыми 2-операндными инструкциями, что затрудняло планирование компиляторами совместимых пар инструкций. VOPD3 расширит это до 3-операндных инструкций, чтобы он мог поддерживать такие операции, как слияние умножения и сложения (fused multiply-add, FMA). Фактически, V_FMA_F32 была добавлена в этом самом запросе на включение (pull request), и именно так мы можем предположить, что она появится в RDNA 5.
Это позволит выполнять двойную выдачу чаще, что приведет к потенциально огромному увеличению пропускной способности FP32 (в некоторых случаях). Шейдерные блоки будут тратить меньше времени на ожидание тактов, а вместо этого выполнять больше работы, делая каждую инструкцию более эффективной. Это может помочь в требовательных сценариях, таких как рендеринг, что означает, что игровые движки смогут оптимизировать работу для двухпоточного VALU. Уменьшение числа случаев, когда сопряжение не удается из-за ограничений, является ключевым шагом к повышению эффективности оборудования без грубого увеличения IPC за счет кремния. Инструкции FMA также важны, когда речь идет о нейронном рендеринге, поэтому такие технологии, как апскейлинг и генерация кадров (frame-gen), также могут получить здесь прирост, даже если само оборудование не станет более производительным — поскольку выполнение с двойной выдачей повышает эффективность независимо от этого.
Вы можете ознакомиться со статьей Coelacanth’s Dream по ссылке выше, если вас интересуют более подробные сведения, но будьте осторожны, она очень плотная. Кроме того, RDNA 5 еще не скоро появится, и более ориентированные на потребителя обновления, такие как большее количество ядер, безусловно, были бы более привлекательной чертой. Тем не менее, возможность достичь заявленной пропускной способности FP32 легче и стабильнее — это большая архитектурная победа.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Hassam Nasir

Оригинал статьи