Добавить в корзинуПозвонить
Найти в Дзене

🔬 Видеогенераторы до сих пор не умеют в брейкданс и резкие повороты камеры? Проблема не в архитектуре, а в данных

Видеогенераторы до сих пор не умеют в брейкданс и резкие повороты камеры? Проблема не в архитектуре, а в данных. DynaVid (paper, CVPR 2026) показывает: в популярных датасетах почти нет примеров экстремальной динамики, а снимать такое в реале дорого. Авторы предлагают учить движение на синтетике — вместо готовых видео они берут оптический поток (сигнал о смещении между кадрами), рендеренный в Blender Cycles, чтобы модель видела только паттерны движения. Дальше двухэтапный пайплайн: Motion Generator синтезирует последовательности потока, а Motion-guided Video Generator делает видеокадры на базе Wan2.2-5B и добавляет условия для камеры через Plücker embeddings. Авторы заявляют заметное преимущество на сценариях типа 180-градусных разворотов: конкуренты вроде Wan2.2-5B и GEN3C дают артефакты. Что можно вынести инженеру: идея «движение отдельно, визуал отдельно» через оптический поток — готовый рецепт для обучения/дообучения своих пайплайнов на синтетике, особенно когда в датасете нет бы

🔬 Видеогенераторы до сих пор не умеют в брейкданс и резкие повороты камеры? Проблема не в архитектуре, а в данных

Видеогенераторы до сих пор не умеют в брейкданс и резкие повороты камеры? Проблема не в архитектуре, а в данных.

DynaVid (paper, CVPR 2026) показывает: в популярных датасетах почти нет примеров экстремальной динамики, а снимать такое в реале дорого. Авторы предлагают учить движение на синтетике — вместо готовых видео они берут оптический поток (сигнал о смещении между кадрами), рендеренный в Blender Cycles, чтобы модель видела только паттерны движения.

Дальше двухэтапный пайплайн: Motion Generator синтезирует последовательности потока, а Motion-guided Video Generator делает видеокадры на базе Wan2.2-5B и добавляет условия для камеры через Plücker embeddings. Авторы заявляют заметное преимущество на сценариях типа 180-градусных разворотов: конкуренты вроде Wan2.2-5B и GEN3C дают артефакты.

Что можно вынести инженеру: идея «движение отдельно, визуал отдельно» через оптический поток — готовый рецепт для обучения/дообучения своих пайплайнов на синтетике, особенно когда в датасете нет быстрых движений. Ограничения по росту качества тоже честные: пока хуже с несколькими людьми и с правдоподобным взаимодействием с окружением.

• Сбой на экстремальной динамике часто упирается в нехватку данных, а не в «не ту архитектуру»

• Оптический поток как синтетическое условие отделяет движение от визуального вида и снижает артефакты

• Двухэтапный подход (сначала поток, потом видео) даёт более управляемые повороты камеры

#paper #VideoGen #DynaVid #CVPR26 #SyntheticMotion #OpenFlow #Wan2.2-5B

🔗 DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data