Добавить в корзинуПозвонить
Найти в Дзене

Amazon представила ускоритель Trainium3 — прямой конкурент Nvidia Blackwell Ultra

Новый сервер Trn3 Gen2 UltraServer повторяет подход Nvidia к вертикальному масштабированию. Amazon Web Services анонсировала Trainium3 — новое поколение своих чипов для обучения и инференсаФ ИИ. По словам AWS, процессор стал в два раза быстрее и в четыре раза эффективнее, чем предыдущая версия, что делает его одним из самых доступных вариантов для масштабного AI-тренинга. В FP8-производительности Trainium3 выдаёт до 2 517 MXPF8 TFLOPS, что почти вдвое меньше, чем у Nvidia Blackwell Ultra. Но AWS компенсирует это масштабированием: Trn3 UltraServer объединяет 144 чипа Trainium3, достигая 0,36 экзафлопса FP8, что выводит его на уровень Nvidia NVL72 GB300 — а таких конкурентов у Nvidia немного. Trainium3 — это двухчиповый AI-ускоритель с 144 ГБ HBM3E, набранных из четырёх стеков, что обеспечивает до 4,9 ТБ/с пропускной способности памяти. Каждый вычислительный чиплет, производимый TSMC по техпроцессу класса 3 нм, включает:

Новый сервер Trn3 Gen2 UltraServer повторяет подход Nvidia к вертикальному масштабированию.

Amazon Web Services анонсировала Trainium3 — новое поколение своих чипов для обучения и инференсаФ ИИ. По словам AWS, процессор стал в два раза быстрее и в четыре раза эффективнее, чем предыдущая версия, что делает его одним из самых доступных вариантов для масштабного AI-тренинга.

В FP8-производительности Trainium3 выдаёт до 2 517 MXPF8 TFLOPS, что почти вдвое меньше, чем у Nvidia Blackwell Ultra. Но AWS компенсирует это масштабированием: Trn3 UltraServer объединяет 144 чипа Trainium3, достигая 0,36 экзафлопса FP8, что выводит его на уровень Nvidia NVL72 GB300 — а таких конкурентов у Nvidia немного.

Что представляет собой Trainium3

Trainium3 — это двухчиповый AI-ускоритель с 144 ГБ HBM3E, набранных из четырёх стеков, что обеспечивает до 4,9 ТБ/с пропускной способности памяти. Каждый вычислительный чиплет, производимый TSMC по техпроцессу класса 3 нм, включает:

  • четыре ядра NeuronCore-v4 с расширенным набором инструкций;
  • две стека HBM3E;
  • высокоскоростной межчиповый интерфейс;
  • 128 аппаратных механизмов перемещения данных;
  • коммуникационные блоки для коллективных операций;
  • четыре интерфейса NeuronLink-v4 для масштабирования между узлами.

    Подписывайтесь на наш телеграмм канал и читайте новости в удобном формате —
    https://t.me/occlub_ru. Прямо сейчас там идет розыгрыш корпуса.