Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

VGGT-Edit: Пекинский университет, Китайский университет Гонконга и Шанхайская лаборатория ИИ представили фреймворк для 3D-редактирования сцены с ускорением в 120 раз

VGGT-Edit — совместная исследовательская структура Пекинского университета, CUHK, Shanghai AI Lab и NTU, позволяющая редактировать 3D-сцены за 5 секунд с ускорением до 120 раз по сравнению с существующими методами. — pandaily.com Исследователи из Пекинского университета, Китайского университета Гонконга, Шанхайской лаборатории искусственного интеллекта (Shanghai AI Lab) и Наньянского технологического университета (NTU) совместно разработали VGGT-Edit — нативную структуру для 3D-редактирования, которая выполняет модификации сцен примерно за 5 секунд, что до 120 раз быстрее существующих методов. Основное новшество решает фундаментальное ограничение современных моделей 3D-реконструкции. От NeRF до 3D Gaussian Splatting и более новых фреймворков, таких как VGGT и pi-cubed, индустрия добилась поразительного прогресса в реконструкции — преобразовании нескольких фотографий в полноценные 3D-сцены за секунды. Но эти модели могут реконструировать мир; они пока не могут его редактировать. Команда

VGGT-Edit — совместная исследовательская структура Пекинского университета, CUHK, Shanghai AI Lab и NTU, позволяющая редактировать 3D-сцены за 5 секунд с ускорением до 120 раз по сравнению с существующими методами. — pandaily.com

Исследователи из Пекинского университета, Китайского университета Гонконга, Шанхайской лаборатории искусственного интеллекта (Shanghai AI Lab) и Наньянского технологического университета (NTU) совместно разработали VGGT-Edit — нативную структуру для 3D-редактирования, которая выполняет модификации сцен примерно за 5 секунд, что до 120 раз быстрее существующих методов.

Основное новшество решает фундаментальное ограничение современных моделей 3D-реконструкции. От NeRF до 3D Gaussian Splatting и более новых фреймворков, таких как VGGT и pi-cubed, индустрия добилась поразительного прогресса в реконструкции — преобразовании нескольких фотографий в полноценные 3D-сцены за секунды. Но эти модели могут реконструировать мир; они пока не могут его редактировать. Команда, которой поручено реконструировать комнату с инструкцией «передвинь стул к окну, удали средний и замени серый кожаный диван на белый меховой», сталкивается с тем, что существующие конвейеры дают сбой: стулья исчезают под одними углами, появляясь под другими, а неизмененные фоны искажаются вместе с запланированными изменениями.

Подход VGGT-Edit заключается в том, чтобы полностью обойти 2D и выполнять редактирование непосредственно в 3D-пространстве. Вместо редактирования отдельных 2D-видов и последующего распространения изменений, фреймворк работает нативно с 3D-представлением, одновременно поддерживая геометрическую согласованность во всех точках обзора. Это означает, что стул, перемещенный на одном ракурсе камеры, остается перемещенным на всех остальных — свойство, которое трудно гарантировать существующим методам, основанным на 2D-распространении.

В тестовом наборе данных DeltaScene фреймворк VGGT-Edit превосходит существующие методы одновременно по трем параметрам: семантическая согласованность, многоракурсная стабильность и скорость вывода. Задержка в 5 секунд на одно редактирование представляет собой ускорение до 120 раз по сравнению с предыдущими подходами, которым обычно требуются минуты для сопоставимых модификаций сцены.

Исследовательская группа ожидает, что фреймворк снизит порог входа для создания 3D-контента с помощью ИИ, с приложениями, охватывающими редактирование игровых ассетов, архитектурную визуализацию, предварительную визуализацию VFX для кино и построение сред виртуальной реальности. Зависимость подхода от прямых 3D-операций, а не от многоступенчатого распространения 2D-в-3D, также делает его более подходящим для сценариев редактирования в реальном времени, где задержка критична — свойство, которое будет иметь значение по мере перехода создания 3D-контента от офлайн-конвейеров к интерактивным инструментам.

Эта работа представляет собой заметный шаг к устранению разрыва между 3D-реконструкцией и 3D-редактированием — двумя возможностями, которые развивались параллельно, но редко синхронно. Возможность сделать редактирование таким же быстрым и согласованным, как и реконструкция, может значительно ускорить рабочие процессы в любой отрасли, зависящей от 3D-контента — от игр и кино до электронной коммерции и виртуальной примерки.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи