40-я серия NVIDIA в продаже уже больше года, даже модели с приставкой Super успели выйти, чтобы восстановить баланс на рынке и поправить цены. Самое время оценить прогресс непредвзято.
Актуальное поколение видеокарт NVIDIA на старте продаж запомнилось увеличением энергопотребления, габаритов и ценников. С производительностью же всё было неоднозначно: новые GPU заметно отличались от старых архитектурно, а драйверы оказались сырыми. Мы решили проверить, каков на самом деле прирост быстродействия от всех фишек 40-й серии.
Для этого сравним флагманы прошлого и актуального поколений. Результаты будут максимально честными, ведь за прошедший год драйверы отполировали, да и создатели игр учли все особенности передовых GPU. А бенчмарки будем проводить на одинаковом железе, чтобы остальное железо не влияло на производительность.
Лучи и AI
Главные козыри современных видеокарт — производительность в режиме трассировки лучей и эффективность работы нейросетевых сопроцессоров. Пять лет назад NVIDIA запустила переход от классического рендеринга к самому сложному и достоверному — сравнительно честному обсчёту световых лучей, формирующих свет и отражения.
Технология требовала уйму вычислительных ресурсов, поэтому её дополнил нейросетевой апскейлер с темпоральными алгоритмами. Железо до сих пор не способно обеспечить «грубую» производительность для эффективной трассировки, поэтому пришлось изобретать «костыли», повышающие фреймрейт за счёт снижения нагрузки и уменьшения числа расчётов для каждого кадра. Вершина развития нейросетевых технологий по увеличению fps — алгоритм генерации «поддельных» кадров.
Видеокарта рисует два кадра: первый показывается пользователю, второй хранится в буфере. А между ними нейросети дорисовывают ещё один, используя имеющиеся пиксели от двух картинок и вектор их движения. Поскольку смещение объектов невелико и зачастую подчиняется простым правилам (линейный сдвиг, масштабирование, наклон), такие манипуляции не сказываются на плавности и не особо ухудшают качество изображения.
Есть у технологии и минусы. Во-первых, мы видим картинку минимум на один кадр позже, чем могли бы. А то и на два. Это слегка увеличивает задержки при управлении, что годится не всем геймерам. Во-вторых, генерация кадров не работает сама по себе. Разработчики должны внедрить её на этапе создания игры или добавить патчем после релиза. В идеале игровой движок должен не только отдавать кадры, но и векторы движения объектов, с которыми нейросеть будет генерировать картинку с минимумом графических артефактов. А ещё, по мнению Дженсена Хуанга, для всего этого великолепия нам просто не обойтись без 40-й серии NVIDIA. Потому что алгоритм не будет функционировать на прошлых поколениях.
Rocket Science
Впервые RTX-ядра и нейронный блок реализовали в 20-й серии «зелёных» GPU на основе архитектуры Turing в 2018 году. Производительность RT-модуля не впечатляла, зато в играх без рейтрейсинга фреймрейт был заметно выше, чем на карточках 10-й линейки.
Спустя два года дебютировала 30-я серия с архитектурой Ampere. В ней инженеры NVIDIA провели ряд улучшений и оптимизаций. Энергоэффективность поднялась в 1,9 раза, а быстродействие RT-ядер — в 2 раза. Выросла и вычислительная мощь самого GPU, новинки показывали вдвое больше TFLOPS в режиме FP32 (одинарная точность). Основной упор делался на увеличение «грубой силы» и новые техпроцессы, позволившие графическим чипам справляться с играми без применения нейросетевого апскейлера.
Актуальная 40-я линейка появилась в 2022 году. В архитектуре Ada Lovelace ставку сделали на нейросетевых помощников. Многим GPU уменьшили пропускную способность памяти (потому что так дешевле производить видеокарты), а пользователям сказали что-то в духе «нейросети затащат».
Аппаратные улучшения производительности тоже были. RT-ядра стали вдвое быстрее на фоне 30-й серии. Ещё добавили новые технологии: Opacity Micromap позволила быстрее обсчитывать полупрозрачные объекты (листву, пламя и другие светящиеся частицы), а Displaced Micro-Mesh обеспечила ускоренный расчёт геометрии сложных сцен. Всё это устраняет «бутылочные горлышки» в трассировке лучей, уменьшая просадки в наиболее трудных для алгоритма участках.
Генерацию промежуточных кадров удалось реализовать благодаря значительному увеличению производительности нейросетевого блока (Optical Flow Accelerator). Сама NVIDIA заявляла о 2- или даже 4-кратном приросте fps в зависимости от настроек. Реальность, разумеется, несколько отличается от маркетинга, но об этом мы расскажем чуть позже.
Классика против модерна
Для честного сравнения мы взяли две видеокарты с одинаковым индексом — GeForce RTX 3080 VENTUS 3X 10G LHR и MSI GeForce RTX 4080 VENTUS 3X OC.
В качестве демостенда выбрали системный блок MSI MPG Infinite X2 14th. В нём используются практически топовые компоненты: 20-ядерный процессор Intel Core i9-14900KF с двухсекционной системой водяного охлаждения, материнская плата MSI PRO Z790-P WIFI, 64 ГБ ОЗУ формата DDR5 и SSD на 1 ТБ. С такой начинкой мы не будем упираться в возможности CPU или недостаток памяти, а значит, сравнение будет наиболее честным.
Разница в железе
Флагманский чип GA102 устанавливают на многие модели: 3090 Ti, 3090, 3080 Ti, 3080 с 12 или 10 ГБ памяти. Младшим карточкам достаются процессоры от старших, не прошедшие контроль качества и немного замедленные для стабильной работы в графическом ускорителе уровнем ниже. В RTX 3080 у GA102 отключено около 20% исполнительных блоков. Внутри находятся 8704 ядра CUDA с 68 потоковыми мультипроцессорами (SM), 68 RT-ядрами, 96 блоками операции растеризации (ROP) и 272 блоками текстурирования (TMU). Ширина шины — 320 бит, объём памяти — 10 ГБ GDDR6Х. Пропускная способность — 760,3 ГБ/с. Частота не превышает 1850 МГц, а максимальное энергопотребление — 340 Вт. Теоретическая производительность равна 29,77 Тфлопс.
В 40-й серии NVIDIA пошла по другому пути — практически для каждой модели используется свой чип. В случае с 4080 — AD103. И снова обрезанный. Но в этот раз NVIDIA его практически не трогала: он лишился около 5% исполнительных блоков от максимальной конфигурации (это делается для увеличения выхода годных чипов). В нём 9728 ядер CUDA с 76 SM, 76 RT, 112 ROP и 304 TMU. Ширина шины — 256 бит, объём памяти — 16 ГБ GDDR6Х. Пропускная способность — 716,8 ГБ/с. Частота кристалла поднялась до 2800 МГц, а энергопотребление опустилось до 305 Вт. Теоретическое быстродействие составляет 49,32 Тфлопс.
NVIDIA — жадина
Сопоставление 80-й линейки видеокарт лоб в лоб нельзя назвать на сто процентов честным. С одной стороны, графический процессор получил заметный прирост производительности. У 4080, если сравнивать с 3080, на 12% больше ядер CUDA, SM и RT, а также на 17% больше ROP. Кроме того, 40-я серия функционирует быстрее: +50% рабочих частот и до +65% теоретической производительности. Вдобавок увеличен объём памяти (правда, она стала работать медленнее).
Беда в том, что прирост чистой мощности несопоставим с увеличением стоимости самой видеокарты: она подорожала на 70% — с 700 до 1200 долларов. По мутным заявлениям главы NVIDIA, компания продаёт не конкретную серию графических процессоров, а уровень быстродействия. Производительность выросла? Извольте заплатить больше.
Потребители подобный подход не оценили (в предыдущие годы логика ценообразования была другой), так что «зелёной» корпорации пришлось врубить заднюю и снизить стоимость GPU. Сейчас вышли обновлённые видеокарты 40-го семейства по более низким ценам, изменившие баланс на рынке.
С железом и ценами разобрались. Осталось понять, насколько адекватно оцениваются графические процессоры сегодня и какой прирост fps обеспечивает 40-я серия на фоне предыдущего поколения.
Результаты бенчмарков
3DMark CPU однопоточный — 1256 многопоточный — 16 207 4080 3DMark Speed Way — 7271 3DMark Port Royal — 17 710 3DMark Time Spy — 25 928 3DMark Fire Strike Extreme — 30 742 3080 3DMark Speed Way — 4596 3DMark Port Royal — 11 511 3DMark Time Spy — 17 747 3DMark Fire Strike Extreme — 20 841
В бенчмарках прирост производительности солидный: практически 50%. И тут возникает вопрос — а точно ли эффект достигнут благодаря обновлённой архитектуре? Или же всё дело в приросте тактовой частоты GPU на 50%? Ответ найдём в играх: они не дают линейного роста fps из-за увеличения частоты работы графического процессора, так как обеспечивают более комплексную и непредсказуемую нагрузку на видеокарту.
Результаты в играх
Сравнивая актуальную архитектуру GPU с предыдущей, можно заметить приличный прирост fps во время гейминга — до 40%. Причём в некоторых играх он достигается при 30-процентном уменьшении энергопотребления. Следовательно, даже топовый i9-14900KF не всегда способен обеспечить RTX 4080 достаточным количеством вычислений для выхода на полную загруженность GPU. И это в классическом рендеринге без RTX. Активация трассировки увеличивает отрыв ещё сильнее. Показатель сильно зависит от оптимизации и конкретного релиза: в Alan Wake 2 фреймрейт вырос в 2,3 раза, а в Guardians of the Galaxy — лишь на 7%. В среднем по палате имеем около 50% прироста fps.
А вот хвалёный Frame Generation оказался не столь прост. Прибавка от него несколько преувеличена маркетологами NVIDIA. К примеру, в Cyberpunk 2077 он позволяет поднять fps со 115 до 180 и действительно делает картинку более плавной. Однако из-за высокой скорости смены кадров задержка в управлении не ощущается. Но если он разгоняет изначально высокий фреймрейт (скажем, 18 fps до 30-40) следы от действия алгоритма заметны. Впрочем, лучше уж стабильные 40+ fps с небольшими огрехами детализации, чем подтормаживающие 15-20.
Технические характеристики
ПРОЦЕССОР Intel Core i9-14900KF (до 125/253 Вт) 20 ядер, 32 потока @ 3,2 — 6 ГГц ВИДЕОКАРТА NVIDIA GeForce RTX 4080 (до 320 Вт, до 2800 МГц) ОПЕРАТИВНАЯ ПАМЯТЬ 64 ГБ DDR5 (4 слота, до 128 ГБ) 4400 МГц НАКОПИТЕЛЬ 1 ТБ NVMe PCIE 4.0 2 ТБ HDD 7200 об/мин ПОРТЫ 3 x DP 1 x HDMI 1 x Type-C (USB 3.2 Gen2) 2 x Type-A (USB 3.2 Gen1) 1 x Type-C (USB 3.2 Gen2) 1 x Type-A (USB 3.2 Gen2) 1 x Type-A (USB 3.2 Gen1) 4 x Type-A (USB 2.0) 1 x Gigabit Ethernet 2 x Wi-Fi 1 x PS/2 БЕСПРОВОДНЫЕ ПОДКЛЮЧЕНИЯ Wi-Fi 6E Bluetooth 5.3 РАЗМЕРЫ И ВЕС 43 x 49 x 21,5 cм 14 кг
Итоги
40-я серия NVIDIA предлагает по-настоящему могучее железо. Тесты MSI GeForce RTX 4080 VENTUS 3X OC показали, что видеокарта гарантирует стабильные 60 fps в любой игре на ультранастройках в разрешении WQHD (2560x1440), причём даже без DLSS. Вендор действительно серьёзно потрудился над улучшением архитектуры, особенно пристальное внимание инженеры уделили блокам, отвечающим за расчёт отражений в реальном времени. Актуальный прирост fps достигается не только с помощью нейросетевого апскейлинга, но и благодаря более эффективной трате ресурсов внутри GPU.
Отметим и технологию нейросетевой генерации кадров. Она увеличивает фреймрейт на 30-40%, что особенно актуально для владельцев мониторов с высоким разрешением, способных выводить 120-160 кадров в секунду. В подобных условиях алгоритм раскрывает себя лучше всего — так и качество картинки практически не страдает, и на управлении задержка в пару кадров не сказывается.
Если планируете апгрейд видеокарты в ближайшее время, рассматривать прошлое поколение графических процессоров стоит только при двукратной разнице в цене — запас прочности и технологический уровень у актуальных решений гораздо выше. Единственный GPU в линейке, который действительно не вызывает интереса за свою стоимость, — RTX 4060 Ti. У этой модели достаточно много памяти, но пропускная способность не изменилась по сравнению с базовой RTX 4060, из-за чего прирост производительности при высоких разрешениях минимален.