Найти в Дзене
4pda.to

Почём fps для народа? Тестируем RTX 4080 год спустя после релиза

Оглавление
   Почём fps для народа? Тестируем RTX 4080 год спустя после релиза
Почём fps для народа? Тестируем RTX 4080 год спустя после релиза

40-я серия NVIDIA в продаже уже больше года, даже модели с приставкой Super успели выйти, чтобы восстановить баланс на рынке и поправить цены. Самое время оценить прогресс непредвзято.

Актуальное поколение видеокарт NVIDIA на старте продаж запомнилось увеличением энергопотребления, габаритов и ценников. С производительностью же всё было неоднозначно: новые GPU заметно отличались от старых архитектурно, а драйверы оказались сырыми. Мы решили проверить, каков на самом деле прирост быстродействия от всех фишек 40-й серии.

-2

Для этого сравним флагманы прошлого и актуального поколений. Результаты будут максимально честными, ведь за прошедший год драйверы отполировали, да и создатели игр учли все особенности передовых GPU. А бенчмарки будем проводить на одинаковом железе, чтобы остальное железо не влияло на производительность.

Лучи и AI

Главные козыри современных видеокарт — производительность в режиме трассировки лучей и эффективность работы нейросетевых сопроцессоров. Пять лет назад NVIDIA запустила переход от классического рендеринга к самому сложному и достоверному — сравнительно честному обсчёту световых лучей, формирующих свет и отражения.

-3

Технология требовала уйму вычислительных ресурсов, поэтому её дополнил нейросетевой апскейлер с темпоральными алгоритмами. Железо до сих пор не способно обеспечить «грубую» производительность для эффективной трассировки, поэтому пришлось изобретать «костыли», повышающие фреймрейт за счёт снижения нагрузки и уменьшения числа расчётов для каждого кадра. Вершина развития нейросетевых технологий по увеличению fps — алгоритм генерации «поддельных» кадров.

Видеокарта рисует два кадра: первый показывается пользователю, второй хранится в буфере. А между ними нейросети дорисовывают ещё один, используя имеющиеся пиксели от двух картинок и вектор их движения. Поскольку смещение объектов невелико и зачастую подчиняется простым правилам (линейный сдвиг, масштабирование, наклон), такие манипуляции не сказываются на плавности и не особо ухудшают качество изображения.

-4

Есть у технологии и минусы. Во-первых, мы видим картинку минимум на один кадр позже, чем могли бы. А то и на два. Это слегка увеличивает задержки при управлении, что годится не всем геймерам. Во-вторых, генерация кадров не работает сама по себе. Разработчики должны внедрить её на этапе создания игры или добавить патчем после релиза. В идеале игровой движок должен не только отдавать кадры, но и векторы движения объектов, с которыми нейросеть будет генерировать картинку с минимумом графических артефактов. А ещё, по мнению Дженсена Хуанга, для всего этого великолепия нам просто не обойтись без 40-й серии NVIDIA. Потому что алгоритм не будет функционировать на прошлых поколениях.

Rocket Science

Впервые RTX-ядра и нейронный блок реализовали в 20-й серии «зелёных» GPU на основе архитектуры Turing в 2018 году. Производительность RT-модуля не впечатляла, зато в играх без рейтрейсинга фреймрейт был заметно выше, чем на карточках 10-й линейки.

-5

Спустя два года дебютировала 30-я серия с архитектурой Ampere. В ней инженеры NVIDIA провели ряд улучшений и оптимизаций. Энергоэффективность поднялась в 1,9 раза, а быстродействие RT-ядер — в 2 раза. Выросла и вычислительная мощь самого GPU, новинки показывали вдвое больше TFLOPS в режиме FP32 (одинарная точность). Основной упор делался на увеличение «грубой силы» и новые техпроцессы, позволившие графическим чипам справляться с играми без применения нейросетевого апскейлера.

Актуальная 40-я линейка появилась в 2022 году. В архитектуре Ada Lovelace ставку сделали на нейросетевых помощников. Многим GPU уменьшили пропускную способность памяти (потому что так дешевле производить видеокарты), а пользователям сказали что-то в духе «нейросети затащат».

Аппаратные улучшения производительности тоже были. RT-ядра стали вдвое быстрее на фоне 30-й серии. Ещё добавили новые технологии: Opacity Micromap позволила быстрее обсчитывать полупрозрачные объекты (листву, пламя и другие светящиеся частицы), а Displaced Micro-Mesh обеспечила ускоренный расчёт геометрии сложных сцен. Всё это устраняет «бутылочные горлышки» в трассировке лучей, уменьшая просадки в наиболее трудных для алгоритма участках.

-6

Генерацию промежуточных кадров удалось реализовать благодаря значительному увеличению производительности нейросетевого блока (Optical Flow Accelerator). Сама NVIDIA заявляла о 2- или даже 4-кратном приросте fps в зависимости от настроек. Реальность, разумеется, несколько отличается от маркетинга, но об этом мы расскажем чуть позже.

Классика против модерна

Для честного сравнения мы взяли две видеокарты с одинаковым индексом — GeForce RTX 3080 VENTUS 3X 10G LHR и MSI GeForce RTX 4080 VENTUS 3X OC.

В качестве демостенда выбрали системный блок MSI MPG Infinite X2 14th. В нём используются практически топовые компоненты: 20-ядерный процессор Intel Core i9-14900KF с двухсекционной системой водяного охлаждения, материнская плата MSI PRO Z790-P WIFI, 64 ГБ ОЗУ формата DDR5 и SSD на 1 ТБ. С такой начинкой мы не будем упираться в возможности CPU или недостаток памяти, а значит, сравнение будет наиболее честным.

-7

Разница в железе

Флагманский чип GA102 устанавливают на многие модели: 3090 Ti, 3090, 3080 Ti, 3080 с 12 или 10 ГБ памяти. Младшим карточкам достаются процессоры от старших, не прошедшие контроль качества и немного замедленные для стабильной работы в графическом ускорителе уровнем ниже. В RTX 3080 у GA102 отключено около 20% исполнительных блоков. Внутри находятся 8704 ядра CUDA с 68 потоковыми мультипроцессорами (SM), 68 RT-ядрами, 96 блоками операции растеризации (ROP) и 272 блоками текстурирования (TMU). Ширина шины — 320 бит, объём памяти — 10 ГБ GDDR6Х. Пропускная способность — 760,3 ГБ/с. Частота не превышает 1850 МГц, а максимальное энергопотребление — 340 Вт. Теоретическая производительность равна 29,77 Тфлопс.

-8

В 40-й серии NVIDIA пошла по другому пути — практически для каждой модели используется свой чип. В случае с 4080 — AD103. И снова обрезанный. Но в этот раз NVIDIA его практически не трогала: он лишился около 5% исполнительных блоков от максимальной конфигурации (это делается для увеличения выхода годных чипов). В нём 9728 ядер CUDA с 76 SM, 76 RT, 112 ROP и 304 TMU. Ширина шины — 256 бит, объём памяти — 16 ГБ GDDR6Х. Пропускная способность — 716,8 ГБ/с. Частота кристалла поднялась до 2800 МГц, а энергопотребление опустилось до 305 Вт. Теоретическое быстродействие составляет 49,32 Тфлопс.

NVIDIA — жадина

Сопоставление 80-й линейки видеокарт лоб в лоб нельзя назвать на сто процентов честным. С одной стороны, графический процессор получил заметный прирост производительности. У 4080, если сравнивать с 3080, на 12% больше ядер CUDA, SM и RT, а также на 17% больше ROP. Кроме того, 40-я серия функционирует быстрее: +50% рабочих частот и до +65% теоретической производительности. Вдобавок увеличен объём памяти (правда, она стала работать медленнее).

Беда в том, что прирост чистой мощности несопоставим с увеличением стоимости самой видеокарты: она подорожала на 70% — с 700 до 1200 долларов. По мутным заявлениям главы NVIDIA, компания продаёт не конкретную серию графических процессоров, а уровень быстродействия. Производительность выросла? Извольте заплатить больше.

Потребители подобный подход не оценили (в предыдущие годы логика ценообразования была другой), так что «зелёной» корпорации пришлось врубить заднюю и снизить стоимость GPU. Сейчас вышли обновлённые видеокарты 40-го семейства по более низким ценам, изменившие баланс на рынке.

С железом и ценами разобрались. Осталось понять, насколько адекватно оцениваются графические процессоры сегодня и какой прирост fps обеспечивает 40-я серия на фоне предыдущего поколения.

Результаты бенчмарков

3DMark CPU однопоточный — 1256 многопоточный — 16 207 4080 3DMark Speed Way — 7271 3DMark Port Royal — 17 710 3DMark Time Spy — 25 928 3DMark Fire Strike Extreme — 30 742 3080 3DMark Speed Way — 4596 3DMark Port Royal — 11 511 3DMark Time Spy — 17 747 3DMark Fire Strike Extreme — 20 841

В бенчмарках прирост производительности солидный: практически 50%. И тут возникает вопрос — а точно ли эффект достигнут благодаря обновлённой архитектуре? Или же всё дело в приросте тактовой частоты GPU на 50%? Ответ найдём в играх: они не дают линейного роста fps из-за увеличения частоты работы графического процессора, так как обеспечивают более комплексную и непредсказуемую нагрузку на видеокарту.

Результаты в играх

-9

Сравнивая актуальную архитектуру GPU с предыдущей, можно заметить приличный прирост fps во время гейминга — до 40%. Причём в некоторых играх он достигается при 30-процентном уменьшении энергопотребления. Следовательно, даже топовый i9-14900KF не всегда способен обеспечить RTX 4080 достаточным количеством вычислений для выхода на полную загруженность GPU. И это в классическом рендеринге без RTX. Активация трассировки увеличивает отрыв ещё сильнее. Показатель сильно зависит от оптимизации и конкретного релиза: в Alan Wake 2 фреймрейт вырос в 2,3 раза, а в Guardians of the Galaxy — лишь на 7%. В среднем по палате имеем около 50% прироста fps.

-10

А вот хвалёный Frame Generation оказался не столь прост. Прибавка от него несколько преувеличена маркетологами NVIDIA. К примеру, в Cyberpunk 2077 он позволяет поднять fps со 115 до 180 и действительно делает картинку более плавной. Однако из-за высокой скорости смены кадров задержка в управлении не ощущается. Но если он разгоняет изначально высокий фреймрейт (скажем, 18 fps до 30-40) следы от действия алгоритма заметны. Впрочем, лучше уж стабильные 40+ fps с небольшими огрехами детализации, чем подтормаживающие 15-20.

Технические характеристики

ПРОЦЕССОР Intel Core i9-14900KF (до 125/253 Вт) 20 ядер, 32 потока @ 3,2 — 6 ГГц ВИДЕОКАРТА NVIDIA GeForce RTX 4080 (до 320 Вт, до 2800 МГц) ОПЕРАТИВНАЯ ПАМЯТЬ 64 ГБ DDR5 (4 слота, до 128 ГБ) 4400 МГц НАКОПИТЕЛЬ 1 ТБ NVMe PCIE 4.0 2 ТБ HDD 7200 об/мин ПОРТЫ 3 x DP 1 x HDMI 1 x Type-C (USB 3.2 Gen2) 2 x Type-A (USB 3.2 Gen1) 1 x Type-C (USB 3.2 Gen2) 1 x Type-A (USB 3.2 Gen2) 1 x Type-A (USB 3.2 Gen1) 4 x Type-A (USB 2.0) 1 x Gigabit Ethernet 2 x Wi-Fi 1 x PS/2 БЕСПРОВОДНЫЕ ПОДКЛЮЧЕНИЯ Wi-Fi 6E Bluetooth 5.3 РАЗМЕРЫ И ВЕС 43 x 49 x 21,5 cм 14 кг

Итоги

40-я серия NVIDIA предлагает по-настоящему могучее железо. Тесты MSI GeForce RTX 4080 VENTUS 3X OC показали, что видеокарта гарантирует стабильные 60 fps в любой игре на ультранастройках в разрешении WQHD (2560x1440), причём даже без DLSS. Вендор действительно серьёзно потрудился над улучшением архитектуры, особенно пристальное внимание инженеры уделили блокам, отвечающим за расчёт отражений в реальном времени. Актуальный прирост fps достигается не только с помощью нейросетевого апскейлинга, но и благодаря более эффективной трате ресурсов внутри GPU.

-11

Отметим и технологию нейросетевой генерации кадров. Она увеличивает фреймрейт на 30-40%, что особенно актуально для владельцев мониторов с высоким разрешением, способных выводить 120-160 кадров в секунду. В подобных условиях алгоритм раскрывает себя лучше всего — так и качество картинки практически не страдает, и на управлении задержка в пару кадров не сказывается.

Если планируете апгрейд видеокарты в ближайшее время, рассматривать прошлое поколение графических процессоров стоит только при двукратной разнице в цене — запас прочности и технологический уровень у актуальных решений гораздо выше. Единственный GPU в линейке, который действительно не вызывает интереса за свою стоимость, — RTX 4060 Ti. У этой модели достаточно много памяти, но пропускная способность не изменилась по сравнению с базовой RTX 4060, из-за чего прирост производительности при высоких разрешениях минимален.