Компания AMD на мероприятии Financial Analyst Day 2020 представила свою будущую архитектуру ускорителей вычислений — CDNA. Она дополнит графически-ориентированную архитектуру RDNA. В то время как RDNA создаётся для графических ускорителей Radeon Pro и Radeon RX, CDNA будет обеспечивать работу вычислительных ускорителей вроде Radeon Instinct.
AMD объясняет необходимость разделения RDNA и CDNA рыночной дифференциацией продуктов.
Центры обработки данных и HPC, использующие ускорители Radeon Instinct, не используют многие возможности графического рендеринга графического процессора. Таким образом, на уровне кремния AMD удалит растровые графические блоки, механизмы отображения и мультимедиа, а также другие связанные компоненты, которые занимают значительные площади кристалла. Вместо этого AMD добавит аппаратные блоки для тензорных вычислений, аналогичное тензорным ядрам в современных ускорителях NVIDIA.
AMD также упомянула использование в своих вычислительных ускорителях интерфейсов памяти HBM2e, межкомпонентное соединение Infinity Fabric в дополнение к PCIe и так далее. Компания подробно изложила краткий план развития CDNA на 2021-22 годы. Вычислительные ускорители текущего поколения компании основаны на устаревшей архитектуре Vega и представляют собой существенно переконфигурированные графические процессоры Vega 20, в которых отсутствует тензорное оборудование.
Позже в этом году компания представит свой первый ускоритель на базе 7-нм архитектуры CDNA, основанный на 7-нм техпроцессе с вычислительными блоками RDNA и тензорными ядрами для ускорения создания и обучения нейросетей. Где-то между 2021 и 2022 годами AMD представит свою обновлённую архитектуру CDNA2, основанную на «продвинутом техпроцессе» (либо 7-нм ULV, либо уже 5 нм).
Помимо увеличения показателя IPC, количества вычислительных блоков и прочего, основное внимание при разработке CDNA2 будет уделено гипермасштабируемости (способности масштабировать ГП в огромных пулах памяти, охватывающих тысячи узлов). Для этого AMD будет использовать Infinity Fabric 3-го поколения и унифицированную память с когерентным кешем.
Подобно Intel Compute eXpress Link (CXL) и PCI-Express 5.0, Infinity Fabric 3.0 будет поддерживать пулы разделяемой памяти между ЦП и ГП, обеспечивая масштабируемость, необходимую для огромных суперкомпьютеров вроде грядущих El Capitan и Frontier. Унифицированная память с когерентным кешем уменьшает ненужные передачи данных между связанной с ЦП памятью DRAM и связанной с ГП памятью HBM. Ядра ЦП смогут напрямую обрабатывать различные этапы последовательных вычислений операций на ГП, напрямую обращаясь к HBM и не загружая данные в свою основную память. Это значительно снизит нагрузку ввода-вывода.
El Capitan — это суперкомпьютер на базе чипов AMD, пиковая производительность которого после завершения строительства составит 2 экзафплопса (то есть 2000 петафлопс или 2 миллиона терафлопс). Он объединит процессоры AMD EPYC Genoa на основе архитектуры Zen 4 с ускорителями на базе CDNA2 и Infinity Fabric 3.0. El Capitan будет запущен в 2023 году, а вот Frontier мощностью 1,5 Эфлопс заработает уже в следующем.