В этом мини-эпизоде нашего объяснительного шоу, масштабированного, мы разбиваем последний графический процессор NVIDIA, A100, и его новый графический архитектурный Ампер. Объявленный на давно отложенной конференции GTC компании, A100 не предназначен для геймеров или даже для пользователей рабочих станций. Вместо этого, это прямая замена для Volta-based V100 — A 2017 GPU, специально построенного для центров обработки данных.
В этом мини-эпизоде нашего объяснительного шоу, масштабированного, мы разбиваем последний графический процессор NVIDIA, A100, и его новый графический архитектурный Ампер. Объявленный на давно отложенной конференции GTC компании, A100 не предназначен для геймеров или даже для пользователей рабочих станций. Вместо этого, это прямая замена для Volta-based V100 — A 2017 GPU, специально построенного для центров обработки данных.
NVIDIA была немного туманной на более мелких деталях Ampere, но то, что мы знаем, это то, что графический процессор A100 огромен. Его размер матрицы составляет 826 квадратных миллиметров, что больше, чем как V100 (815mm2), так и флагманская игровая карта NVIDIA, RTX 2080 Ti (754mm2).
Это может не звучать как большие различия, но A100-это первый графический процессор NVIDIA, который будет построен на 7-нм процессе TSMC-его текущие модели находятся на 12 нм. Это означает, что существует примерно 40-процентное сокращение объема пространства, необходимого для каждого транзистора, что позволило NVIDIA, по-видимому, сжать 54 миллиарда транзисторов в A100. Мы говорим, видимо, потому, что это такое огромное увеличение по сравнению, скажем, с 18,6 миллиардами транзисторов 2080 Ti, что это почти похоже на то, что кто-то сделал свою математику неправильно. При этом некоторые быстрые расчеты показали, что плотность транзисторов A100 составляет около 65 миллионов на квадратный миллиметр, что находится в пределах возможностей TSMC в 7-нм процессе.
A100 имеет 6.912 сердечников FP32 CUDA, 3.456 сердечников FP64 CUDA и 422 сердечника тензора. Сравните это с V100, который имеет 5120 ядер CUDA и 640 тензорных ядер, и вы можете увидеть, насколько сильно новый процесс повлиял на то, что NVIDIA позволила сжать больше компонентов в чипе, который лишь незначительно больше, чем тот, который он заменяет.
A100 продается упакованным в DGX A100, систему с 8 A100s, пару 64-ядерных серверных чипов AMD, 1 ТБ оперативной памяти и 15 ТБ памяти NVME, за крутые $200,000. Для контекста, DGX-1, аналогичная система с 8 V100s, стоила около $150 000 при запуске. Это приравнивается к 33-процентному поколенческому росту цен, но NVIDIA утверждает, что A100 в 20 раз быстрее при выводе и обучении AI по сравнению с V100. И AI действительно все эти карты, скорее всего, будут использоваться для-NVIDIA уже продала DGX A100s партнерам и отправила одну в Национальную лабораторию Аргонна, чтобы помощь в борьбе с КОВИД-19 .
Этот скачок производительности в 20 раз частично вызван массовым увеличением ядер, но архитектурные улучшения и новые способы выполнения математики (в которые мы погружаемся в нашем видео), вероятно, способствуют гораздо большему. A100 также помогает своей памятью: она имеет 40GB памяти HBM2, сравненной к 16GB V100 запущенное с (компания bumped память на карточках Volta к 32GB более поздно), которая значит что каждая система DGX A100 имеет 320GB VRAM.
Так что же это может сказать нам о долгожданных новых игровых картах NVIDIA? Ну, конкретно, некоторые из этих улучшений AI найдут свой путь в карты GeForce, улучшая производительность в задачах масштабирования, таких как DLSS или шумоподавление, что является ключевым аспектом трассировки лучей.
На брифинге с журналистами генеральный директор NVIDIA Йенсен Хуанг практически подтвердил, что, хотя между Ampere и предстоящими потребительскими картами есть “большое перекрытие в архитектуре”, эти игровые карты не будут иметь памяти HBM2, а размер различных элементов в чипах будет очень отличаться, поскольку они будут больше ориентированы на графическую производительность, чем на высокоточную математику. Это означает, что вы должны ожидать гораздо более высоких результатов в вычислениях FP32 (именно там, где эта цифра TFLOP, о которой вы слышите, когда запускается новый GPU или консоль) для потребительских карт, учитывая, что так много штампов A100 передается аппаратному обеспечению, ориентированному на FP64.
Переходя к теории крафта, графический процессор GeForce размером с 2080 Ti с плотностью, приближающейся к плотности A100, полностью ориентированный на игру, вероятно, будет в два раза быстрее. Чтобы быть ясным, это вряд ли произойдет: NVIDIA, вероятно, значительно сократит чип, сократив его стоимость и позволив ему продавать гораздо более быстрые карты по аналогичным ценам для своего нынешнего поколения. Нынешний слух du jour исходит от закона YouTuber Moore is Dead, который предполагает, что ожидаемый "3080 Ti" будет иметь примерно на 30 процентов больше ядер, чем 2080 Ti, что может сделать для флагманского GPU гораздо более разумный 450mm2 die. Будет ли меньшая смерть означать, что цены на GPU пойдут вниз? Учитывая, что эти спецификации, скорее всего, поставят предложения NVIDIA впереди слухов о новых картах AMD, мы сомневаемся в этом.