208 подписчиков

🚀 AMD CDNA 4: Ускоритель MI355X и борьба за лидерство в мире вычислений

18 июня 202518 июн 2025

4 мин

В гонке за первенство на рынке высокопроизводительных ускорителей AMD снова делает ставку на инновации, представляя архитектуру CDNA 4 и флагманский GPU MI355X. Давайте детальнее разберём, что скрывается за новыми технологическими решениями AMD и как это повлияет на индустрию искусственного интеллекта и машинного обучения. Архитектура CDNA 4 не является принципиально новой разработкой — скорее, это грамотное усовершенствование успешной архитектуры CDNA 3. Компания сделала упор на ключевые улучшения, которые необходимы для эффективного решения AI-задач и машинного обучения, особенно в матричных операциях низкой точности (FP8, FP6, INT8). Почему именно низкоточные матрицы? Таким образом, AMD чётко ориентируется на растущий сегмент AI-вычислений, стремясь отобрать у Nvidia часть её рыночного пирога. AMD остаётся верной проверенной стратегии с использованием чиплетной структуры (chiplets). MI355X построен на восьми вычислительных модулях (XCD), которые связаны посредством фирменного интерф

Оглавление

🔍 Эволюция вместо революции
🧩 Технические новинки архитектуры
🏗️ Чиплеты: масштабируемость на максимум

В гонке за первенство на рынке высокопроизводительных ускорителей AMD снова делает ставку на инновации, представляя архитектуру CDNA 4 и флагманский GPU MI355X. Давайте детальнее разберём, что скрывается за новыми технологическими решениями AMD и как это повлияет на индустрию искусственного интеллекта и машинного обучения.

🔍 Эволюция вместо революции

Архитектура CDNA 4 не является принципиально новой разработкой — скорее, это грамотное усовершенствование успешной архитектуры CDNA 3. Компания сделала упор на ключевые улучшения, которые необходимы для эффективного решения AI-задач и машинного обучения, особенно в матричных операциях низкой точности (FP8, FP6, INT8).

Почему именно низкоточные матрицы?

🎯 Машинное обучение и AI: большинство задач нейросетей не требует высокой точности (FP32), а прекрасно обходится и низкими типами данных (FP8, INT8).
⚡ Эффективность и производительность: вычисления с низкой точностью существенно ускоряют операции и экономят энергопотребление.

Таким образом, AMD чётко ориентируется на растущий сегмент AI-вычислений, стремясь отобрать у Nvidia часть её рыночного пирога.

🧩 Технические новинки архитектуры

🏗️ Чиплеты: масштабируемость на максимум

AMD остаётся верной проверенной стратегии с использованием чиплетной структуры (chiplets). MI355X построен на восьми вычислительных модулях (XCD), которые связаны посредством фирменного интерфейса Infinity Fabric. Такой подход обеспечивает:

🔗 Высокую масштабируемость вычислительных мощностей.
🧮 Упрощённый процесс производства и лучшее управление выходом годных чипов.

📚 Улучшения памяти: HBM3E

Одним из важнейших обновлений стало внедрение памяти HBM3E (High Bandwidth Memory 3 Enhanced). Она обеспечивает рекордную пропускную способность — до 8 ТБ/с, что значительно выше предыдущих поколений и даже превосходит показатели конкурентов от Nvidia:

📈 AMD MI355X: 288 ГБ, 8 ТБ/с
📉 Nvidia B200: 180 ГБ, 7.7 ТБ/с

Это позволяет AMD сохранять превосходство в задачах с большими объёмами данных.

⚙️ Ключевые изменения вычислительных блоков (CU)

Главный фокус архитектуры — оптимизация матричных операций:

📌 Двойной прирост производительности для низкоточных вычислений FP6, FP8, INT8.
📌 Сохранение лидерства по числу FP32-операций за счёт большего количества вычислительных блоков и их высокой частоты.

Несмотря на то, что Nvidia по-прежнему обладает более эффективными блоками для низкоточных операций, общий масштаб и высокая тактовая частота MI355X позволяют AMD сохранять общее лидерство по производительности в различных сценариях.

🧰 Улучшение локальной памяти LDS

AMD существенно улучшила работу с локальной памятью — LDS (Local Data Share):

🗃️ Размер LDS увеличен с 64 КБ до 160 КБ.
🚄 Пропускная способность выросла вдвое, до 256 байт за такт.
🔄 Введена поддержка операций чтения с транспонированием, существенно ускоряющая матричные вычисления.

Эти нововведения позволяют программам дольше держать данные максимально близко к вычислительным ядрам и ускоряют операции, критичные к задержкам.

🖥️ Сравнение с конкурентами: AMD против Nvidia

Сравнивая AMD MI355X с Nvidia Blackwell (B200), видны следующие сильные стороны AMD:

✅ Больше вычислительных блоков (CU).
✅ Более высокая тактовая частота.
✅ Превосходство по памяти (ёмкость и пропускная способность).

Тем не менее, Nvidia всё ещё выигрывает в скорости низкоточных матричных операций за счёт своих Tensor-ядер, что делает её особенно эффективной в определённых задачах глубокого обучения.

🛣️ Перспективы на будущее

Лично мне кажется, что стратегия AMD является весьма взвешенной: компания не бросается в радикальные изменения, а методично дорабатывает успешные решения, которые уже доказали свою эффективность на практике. Подобный подход позволил AMD доминировать на рынке CPU, и сейчас компания активно переносит этот опыт в сегмент AI и HPC (High-Performance Computing).

Однако стоит учитывать, что рынок AI-ускорителей сейчас максимально горячий и крайне конкурентный. Nvidia пока сохраняет лидерство благодаря отработанной экосистеме CUDA и оптимизированным фреймворкам. AMD придётся активно инвестировать в программную поддержку и экосистему, чтобы реализовать потенциал своих технических решений.

🌟 Заключение

Архитектура AMD CDNA 4 и новый ускоритель MI355X — это мощный шаг вперёд, который снова подогревает конкуренцию на рынке HPC и AI-ускорителей. AMD грамотно оптимизировала свою архитектуру под задачи искусственного интеллекта и машинного обучения, и это делает MI355X весьма привлекательным выбором для предприятий и исследовательских организаций.

В ближайшие годы мы увидим интересную борьбу: AMD с её акцентом на масштабируемость и универсальность и Nvidia с её узкоспециализированными, но сверхэффективными решениями для AI.

🔗 Полезные ссылки:

🌌 Будем следить за развитием событий и новыми технологическими баталиями между AMD и Nvidia!