Найти тему

По следам GTC 2022 и GeForce Beyond: Grace Hopper CPU Superchip, Jetson Orin Nano, Transformer Engine

Оглавление

На днях завершилось мероприятие GTC 2022, посвящённое графическим технологиям и смежным темам. В ходе GTC компания NVIDIA показала ряд новых и обновленных технологий, игровую архитектуру Ada Lovelace и математическую Hopper, а также оборудование для «умных» автомобилей и ИИ-вычислений. И конечно же игровые видеокарты GeForce RTX 4000.

Каждая из этих тем заслуживает отдельного материала. В этом году NVIDIA – это действительно инновационная компания. Однако детально NVIDIA рассказала далеко не про всё, многие вещь были лишь вскользь упомянуты, поэтому пока ограничимся краткой «выжимкой» из выступления чипмейкера на GTC и игровой презентации GeForce Beyond. Сперва ознакомимся с прикладными и профессиональными технологиями и «железками», позже с игровым сегментом.

Grace Hopper CPU Superchip

-2

Начать стоит с чего-то вещественного. Одна из главных новинок - Grace Hopper CPU Superchip на базе архитектуры Hopper. По своей сути это центральный процессор, предназначенный для центров обработки данных, работе с ИИ и других высокопроизводительных вычислений.

-3

Hopper CPU Superchip состоит из пары процессорных модулей, объединённых скоростной шиной NVLink-C2C с пропускной способностью 900 ГБ/с. Этот же интерфейс используется для связи с графическими ускорителями. Суммарно этот чип насчитывает 144 ядра ARM V9 (Neoverse). Он работает с памятью LPDDR5X с кодом коррекции ошибок (ECC), пропускная способность которой достигает 1 ТБ.

NVIDIA обещает ощутимый прирост производительности в прикладных задачах. В SPECrate2017_int_base он набирает 740 баллов, что 1,5 раза больше, чем пара серверных AMD EPYC в составе системы NVIDIA DGX A100. Однако ключевым преимуществом компания считает энергоэффективность. Производительность на ватт до 2 раз лучше, чем у конкурентных систем на традиционных процессорах.

-4

Как итог производительность системы с Grace Hopper CPU Superchip и ускорителями на архитектуре Hopper в 4 раза больше, чем у системы на традиционных процессорах с аналогичными ускорителями.

Дополнительных деталей пока нет. И это неудивительно, ведь появится первый процессор NVIDIA только в следующем году.

Jetson Orin Nano

-5

Крайне значительное улучшение получила Jetson Nano – очень доступная одноплатная платформа для задач, связанных с искусственным интеллектом. Другими словами, эдакий входной билет в мир ИИ-вычислений и сложных задач робототехники.

И сразу о главном: рост производительности почти в 80 (!) раз. Старшая версия характеризуется 40 Тфлопс вычислительной мощности против 472 Гфлопс у «обычного» Jetson Nano.

-6

Модули Orin Nano будут доступны в двух модификациях: c 8 ГБ видеопамяти, 40 Тфлопс вычислительной мощность и 7-15 ваттным лимитом TDP, а также с 4 ГБ памяти, на 20 Тфлопс и TDP 5-10 Вт.

Популярность Jetson Nano обеспечил ценник около $100. У новой версии ценники уже «кусаются». 4-ГБ версия Jetson Orin Nano оценена в $200, а старшая модификация стоит от $300. В продаже с января.

Transformer Engine

Львиная доля современных разработок в области ИИ связана с большими языковыми моделями, такими как Megatron 530B. Хотя изначально они были созданы для обработки естественного языка, их универсальность позволяет делать многое. На графике ниже можно отследить, как увеличивался сложность модели с годами. Аппетиты ИИ в отношении вычислительной мощности неослабевающие, из-за чего время обучения может растягиваться на месяцы.

-7

Одним из примечательных моментов архитектуры Hopper является Transformer Engine – комплекс аппаратно-программных средств для ускорения обучения ИИ на больших объёмах данных.

Суть в том, что обучения ИИ задействуются вычисления половинной точности (16 бит, FP16), одинарной точности (32 бит, FP32), а также двойной (64 бит, FP64). Transformer Engine сокращает математику до 8 бит, и использует только 8- и 16-битную точность. Он способен на лету переводить данные в эти форматы, выбирать между ними. Как итог многократный рост производительности с несущественной потерей точности.

-8

В совокупности с другими особенностями это приводит к ускорению обучения в 9 раз относительно ускорителей предыдущего поколения, а скорость логического вывода (inference) увеличилась в 30 раз.

Продолжение следует.