Только мы разговаривали про 4D видео из сплатов, где можно свободно менять угол обзора, но нужен риг из множества камер.
А сегодня Nvidia опубликовала код видео модели GEN3C, в котором можно брать на вход одну картинку, двигать камерой внутри сцены словно в 3D пространстве, и получать видео с нужным пролётом камеры. Альтернативно можно подавать несколько картинок или видео.
Под капотом используется 3D кэш в виде облака точек, полученного из карты глубины изображения или вытащенных кадров. Для генерации новых видов GEN3C задействует траекторию движения камеры от юзера и 2D рендеры 3D кэша. GEN3C можно подрубать к разным видео генераторам, например, видосы выше сгенерированы в Cosmos и есть примеры на SVD.
Про потребление VRAM не сказано, однако чуваку в твиттере 48 ГБ VRAM не хватает. Есть скрипт для запуска на одном GPU и на Multi-GPU. Зато интерфейс с рульками удобными. И да, только Linux... хэй Ubuntu... кыс-кыс!