Видеогенераторы до сих пор не умеют в брейкданс и резкие повороты камеры? Проблема не в архитектуре, а в данных. DynaVid (paper, CVPR 2026) показывает: в популярных датасетах почти нет примеров экстремальной динамики, а снимать такое в реале дорого. Авторы предлагают учить движение на синтетике — вместо готовых видео они берут оптический поток (сигнал о смещении между кадрами), рендеренный в Blender Cycles, чтобы модель видела только паттерны движения. Дальше двухэтапный пайплайн: Motion Generator синтезирует последовательности потока, а Motion-guided Video Generator делает видеокадры на базе Wan2.2-5B и добавляет условия для камеры через Plücker embeddings. Авторы заявляют заметное преимущество на сценариях типа 180-градусных разворотов: конкуренты вроде Wan2.2-5B и GEN3C дают артефакты. Что можно вынести инженеру: идея «движение отдельно, визуал отдельно» через оптический поток — готовый рецепт для обучения/дообучения своих пайплайнов на синтетике, особенно когда в датасете нет бы
🔬 Видеогенераторы до сих пор не умеют в брейкданс и резкие повороты камеры? Проблема не в архитектуре, а в данных
3 апреля3 апр
1 мин