Найти в Дзене
Уловка-32

NVIDIA научила ИИ превращать 2D фотографии в 3D сцены за доли секунды

Instant NeRF - это нейронная модель рендеринга, которая обучается 3D-сцене высокого разрешения за несколько секунд - и может отрисовывать изображения из 2D в 3D за несколько миллисекунд. Когда 75 лет назад была сделана первая моментальная фотография камерой Polaroid, это была революционная возможность быстро запечатлеть трехмерный мир в реалистичном двухмерном изображении. Сегодня исследователи ИИ работают над противоположной задачей: превратить коллекцию неподвижных изображений в цифровую 3D-сцену за считанные секунды. Этот процесс, известный как инверсный рендеринг, использует ИИ для приближения поведения света в реальном мире, позволяя исследователям воссоздать 3D сцену из нескольких 2D изображений, сделанных под разными углами. Команда NVIDIA Research разработала подход, который решает эту задачу практически мгновенно - это одна из первых моделей такого рода, сочетающая сверхбыстрое обучение нейронной сети и быстрый рендеринг. NVIDIA применила этот подход к новой популярной техноло
Оглавление

Instant NeRF - это нейронная модель рендеринга, которая обучается 3D-сцене высокого разрешения за несколько секунд - и может отрисовывать изображения из 2D в 3D за несколько миллисекунд.

Когда 75 лет назад была сделана первая моментальная фотография камерой Polaroid, это была революционная возможность быстро запечатлеть трехмерный мир в реалистичном двухмерном изображении. Сегодня исследователи ИИ работают над противоположной задачей: превратить коллекцию неподвижных изображений в цифровую 3D-сцену за считанные секунды.

Этот процесс, известный как инверсный рендеринг, использует ИИ для приближения поведения света в реальном мире, позволяя исследователям воссоздать 3D сцену из нескольких 2D изображений, сделанных под разными углами. Команда NVIDIA Research разработала подход, который решает эту задачу практически мгновенно - это одна из первых моделей такого рода, сочетающая сверхбыстрое обучение нейронной сети и быстрый рендеринг.

NVIDIA применила этот подход к новой популярной технологии под названием Neural Radiance Fields (NeRF) - метод глубокого обучения для генерации изображений новых любых ракурсов для конкретного фотосета. Результат, получивший название Instant NeRF, является самой быстрой техникой NeRF на сегодняшний день, достигая ускорения более чем в 1000 раз в некоторых случаях. Модель требует всего несколько секунд для обучения на нескольких десятках фотографий - плюс данные об углах обзора камер, с которых они были сделаны - и затем может визуализировать полученную 3D-сцену в течение нескольких десятков миллисекунд.

"Если традиционные 3D представления, такие как полигональные сетки, похожи на векторные изображения, то NeRF похожи на растровые изображения: они плотно фиксируют то, как свет излучается от объекта или внутри сцены", - говорит Дэвид Любке (David Luebke), вице-президент по графическим исследованиям в NVIDIA. "В этом смысле Instant NeRF может быть так же важен для 3D, как цифровые камеры и JPEG сжатие для 2D фотографии - значительно увеличивая скорость, простоту и охват 3D съемки и обмена".

Представленный на сессии NVIDIA GTC на этой неделе, Instant NeRF может быть использован для создания аватаров или сцен для виртуальных миров, для захвата участников видеоконференций и их окружения в 3D, или для реконструкции сцен для цифровых 3D карт.

Отдавая дань уважения ранним дням полароидных снимков, NVIDIA Research воссоздала культовую фотографию Энди Уорхола, который сделал моментальный снимок и превратил его в 3D сцену с помощью Instant NeRF.

Что такое NeRF?

NeRF используют нейронные сети для представления и визуализации реалистичных 3D сцен на основе входной коллекции 2D изображений.

Сбор данных для NeRF похож на работу фотографа на "красной дорожке", который пытается запечатлеть наряд знаменитости со всех сторон - нейронной сети требуется несколько десятков изображений, сделанных с разных точек вокруг сцены, а также положение камеры на каждом из этих снимков.

В сцене, где присутствуют люди или другие движущиеся элементы, чем быстрее будут сделаны эти снимки, тем лучше. Если в процессе захвата 2D-изображения будет слишком много движения, 3D-сцена, созданная ИИ, будет нечеткой.

После этого NeRF заполняет пробелы, обучая небольшую нейронную сеть восстанавливать сцену, предсказывая цвет света, излучаемого в любом направлении из любой точки трехмерного пространства. Эта техника может работать даже в условиях окклюзии - когда объекты, видимые на одних изображениях, заслоняются препятствиями, например, колоннами на других изображениях.

Ускорение в 1 000 раз с помощью мгновенного NeRF

Если для человека оценка глубины и внешнего вида объекта на основе частичного обзора является естественным навыком, то для искусственного интеллекта это сложная задача.

Создание 3D-сцены традиционными методами занимает несколько часов или больше, в зависимости от сложности и разрешения визуализации. Привлечение ИИ ускоряет процесс. Ранние модели NeRF создавали четкие сцены без артефактов за несколько минут, но на обучение уходили часы.

Однако Instant NeRF сокращает время рендеринга на несколько порядков. Он опирается на разработанную NVIDIA технику кодирования хэш-решетки с несколькими разрешениями, которая оптимизирована для эффективной работы на графических процессорах NVIDIA. Используя новый метод кодирования входных данных, исследователи могут добиться высококачественных результатов с помощью крошечной нейронной сети, которая, к тому же, очень быстро работает.

Модель была разработана с использованием набора инструментов NVIDIA CUDA Toolkit и библиотеки Tiny CUDA Neural Networks. Поскольку это легкая нейронная сеть, ее можно обучать и запускать на одном GPU NVIDIA - быстрее всего она работает на картах с ядрами NVIDIA Tensor Cores.

Технология может быть использована для обучения роботов и самоуправляемых автомобилей пониманию размера и формы реальных объектов путем захвата 2D изображений или видеоматериалов о них. Она также может быть использована в архитектуре и развлечениях для быстрого создания цифровых представлений реальной среды, которую создатели могут изменять и достраивать.

Помимо NeRFs, исследователи NVIDIA изучают возможности использования этой техники кодирования ввода для ускорения различных задач ИИ, включая обучение с усилением, перевод языка и универсальные алгоритмы глубокого обучения.