На днях завершилось мероприятие GTC 2022, посвящённое графическим технологиям и смежным темам. В ходе GTC компания NVIDIA показала ряд новых и обновленных технологий, игровую архитектуру Ada Lovelace и математическую Hopper, а также оборудование для «умных» автомобилей и ИИ-вычислений. И конечно же игровые видеокарты GeForce RTX 4000.
Каждая из этих тем заслуживает отдельного материала. В этом году NVIDIA – это действительно инновационная компания. Однако детально NVIDIA рассказала далеко не про всё, многие вещь были лишь вскользь упомянуты, поэтому пока ограничимся краткой «выжимкой» из выступления чипмейкера на GTC и игровой презентации GeForce Beyond. Сперва ознакомимся с прикладными и профессиональными технологиями и «железками», позже с игровым сегментом.
Grace Hopper CPU Superchip
Начать стоит с чего-то вещественного. Одна из главных новинок - Grace Hopper CPU Superchip на базе архитектуры Hopper. По своей сути это центральный процессор, предназначенный для центров обработки данных, работе с ИИ и других высокопроизводительных вычислений.
Hopper CPU Superchip состоит из пары процессорных модулей, объединённых скоростной шиной NVLink-C2C с пропускной способностью 900 ГБ/с. Этот же интерфейс используется для связи с графическими ускорителями. Суммарно этот чип насчитывает 144 ядра ARM V9 (Neoverse). Он работает с памятью LPDDR5X с кодом коррекции ошибок (ECC), пропускная способность которой достигает 1 ТБ.
NVIDIA обещает ощутимый прирост производительности в прикладных задачах. В SPECrate2017_int_base он набирает 740 баллов, что 1,5 раза больше, чем пара серверных AMD EPYC в составе системы NVIDIA DGX A100. Однако ключевым преимуществом компания считает энергоэффективность. Производительность на ватт до 2 раз лучше, чем у конкурентных систем на традиционных процессорах.
Как итог производительность системы с Grace Hopper CPU Superchip и ускорителями на архитектуре Hopper в 4 раза больше, чем у системы на традиционных процессорах с аналогичными ускорителями.
Дополнительных деталей пока нет. И это неудивительно, ведь появится первый процессор NVIDIA только в следующем году.
Jetson Orin Nano
Крайне значительное улучшение получила Jetson Nano – очень доступная одноплатная платформа для задач, связанных с искусственным интеллектом. Другими словами, эдакий входной билет в мир ИИ-вычислений и сложных задач робототехники.
И сразу о главном: рост производительности почти в 80 (!) раз. Старшая версия характеризуется 40 Тфлопс вычислительной мощности против 472 Гфлопс у «обычного» Jetson Nano.
Модули Orin Nano будут доступны в двух модификациях: c 8 ГБ видеопамяти, 40 Тфлопс вычислительной мощность и 7-15 ваттным лимитом TDP, а также с 4 ГБ памяти, на 20 Тфлопс и TDP 5-10 Вт.
Популярность Jetson Nano обеспечил ценник около $100. У новой версии ценники уже «кусаются». 4-ГБ версия Jetson Orin Nano оценена в $200, а старшая модификация стоит от $300. В продаже с января.
Transformer Engine
Львиная доля современных разработок в области ИИ связана с большими языковыми моделями, такими как Megatron 530B. Хотя изначально они были созданы для обработки естественного языка, их универсальность позволяет делать многое. На графике ниже можно отследить, как увеличивался сложность модели с годами. Аппетиты ИИ в отношении вычислительной мощности неослабевающие, из-за чего время обучения может растягиваться на месяцы.
Одним из примечательных моментов архитектуры Hopper является Transformer Engine – комплекс аппаратно-программных средств для ускорения обучения ИИ на больших объёмах данных.
Суть в том, что обучения ИИ задействуются вычисления половинной точности (16 бит, FP16), одинарной точности (32 бит, FP32), а также двойной (64 бит, FP64). Transformer Engine сокращает математику до 8 бит, и использует только 8- и 16-битную точность. Он способен на лету переводить данные в эти форматы, выбирать между ними. Как итог многократный рост производительности с несущественной потерей точности.
В совокупности с другими особенностями это приводит к ускорению обучения в 9 раз относительно ускорителей предыдущего поколения, а скорость логического вывода (inference) увеличилась в 30 раз.
Продолжение следует.