9938 подписчиков

Netflix представила фреймворк VOID для автоматизации редактирования видео

3 дня назад3 дня назад

3 мин

Компания Netflix анонсировала запуск нового фреймворка VOID (Video Object Inpainting and Decomposition), который призван усовершенствовать процесс удаления объектов из видеоконтента. В отличие от традиционных методов, такие как «заплаточный» подход, VOID использует механизм декомпозиции сцены, что существенно меняет подход к редактированию видео. Модель разделяет видеопоток на слои фона и динамические маски, что позволяет ей восстанавливать структуру сцены с учетом глубины и перспективы. Особое внимание уделено решению проблемы темпоральной связности, что является сложной задачей для многих диффузионных моделей. С использование специфических механизмов внимания и анализа межкадровых связей, VOID минимизирует артефакты мерцания и «плавающие» текстуры, показывая в сравнительных тестах превосходство над существующим SOTA-решением ProPainter. Архитектурно VOID спроектирована как гибкий пайплайн, работающий с масками любой сложности — от удаления мелких проводов до полной замены крупных объ

Модель разделяет видеопоток на слои фона и динамические маски, что позволяет ей восстанавливать структуру сцены с учетом глубины и перспективы. Особое внимание уделено решению проблемы темпоральной связности, что является сложной задачей для многих диффузионных моделей. С использование специфических механизмов внимания и анализа межкадровых связей, VOID минимизирует артефакты мерцания и «плавающие» текстуры, показывая в сравнительных тестах превосходство над существующим SOTA-решением ProPainter.

Архитектурно VOID спроектирована как гибкий пайплайн, работающий с масками любой сложности — от удаления мелких проводов до полной замены крупных объектов. Поддержка поэтапного инференса позволяет модели сохранять детализацию текстур без потери контекста сцены. Реализация проекта происходит на базе PyTorch с нативной совместимостью с экосистемой Diffusers, что упрощает интеграцию в профессиональные VFX-пайплайны.

Для развертывания модели потребуются мощные ресурсы, и стандартный запуск оптимизирован под GPU уровня NVIDIA A100. Тем не менее, предусмотрены способы оптимизации, позволяющие запускать INF на более доступных видеокартах, таких как RTX 3090/4090.

VOID открывает новый этап в автоматизации трудоемкого процесса постпродакшена, такого как ротоскопинг и клинап. Нейросеть не только позволяет удалить объекты и их тени, но и учитывать физику, а также воспроизводить реалистичные последствия их удаления. Исходный код модели и её веса уже доступны на GitHub, что предоставляет возможность разработчикам создать инструменты для высококачественного видеомонтажа.

]]>

Цифровой дизайн

143,9 тыс интересуются