Найти в Дзене
Psy Eyes

Только мы разговаривали про 4D видео из сплатов, где можно свободно менять угол обзора, но нужен риг из множества камер

Только мы разговаривали про 4D видео из сплатов, где можно свободно менять угол обзора, но нужен риг из множества камер.

А сегодня Nvidia опубликовала код видео модели GEN3C, в котором можно брать на вход одну картинку, двигать камерой внутри сцены словно в 3D пространстве, и получать видео с нужным пролётом камеры. Альтернативно можно подавать несколько картинок или видео.

Под капотом используется 3D кэш в виде облака точек, полученного из карты глубины изображения или вытащенных кадров. Для генерации новых видов GEN3C задействует траекторию движения камеры от юзера и 2D рендеры 3D кэша. GEN3C можно подрубать к разным видео генераторам, например, видосы выше сгенерированы в Cosmos и есть примеры на SVD.

Про потребление VRAM не сказано, однако чуваку в твиттере 48 ГБ VRAM не хватает. Есть скрипт для запуска на одном GPU и на Multi-GPU. Зато интерфейс с рульками удобными. И да, только Linux... хэй Ubuntu... кыс-кыс!

Сайт

Гитхаб