557 подписчиков

Netflix VOID: опенсорсное удаление объектов из видео с тенями, отражениями и логикой сцены

9 апреля9 апр

2 мин

🍿 Netflix Research и INSAIT Sofia University выпустили VOID — опенсорсную модель для удаления объектов из видео с открытыми кодом и весами (Apache 2.0). Ее особенность — правдоподобное редактирование: учитываются тени, отражения, освещение и физические взаимодействия, поэтому сцена «пересобирается» после удаления объекта. Технически модель основана на CogVideoX-Fun-5B и принимает видео, маску и текстовое описание целевой сцены. VOID работает не как простое «стирание» области. Модель стремится сохранить правдоподобность сцены и учитывает физические связи между объектами. Ключевые свойства, которые подчеркиваются в описании решения: Если удалить человека, который держал гитару, гитара не должна исчезнуть вместе с ним. Корректное «сценное» поведение — гитара окажется на полу. VOID ориентируется именно на такой тип результата, что заметно снижает количество визуальных «ломок» в кадре. В основе VOID — CogVideoX-Fun-5B, 3D diffusion-трансформер. Поддерживаются ролики до 197 кадров с разреше

Оглавление

Чем VOID отличается от «обычного» удаления
Пример с причинно-следственной связью
Техническая база и ограничения

Чем VOID отличается от «обычного» удаления

VOID работает не как простое «стирание» области. Модель стремится сохранить правдоподобность сцены и учитывает физические связи между объектами.

Ключевые свойства, которые подчеркиваются в описании решения:

учет теней, отражений и освещения
сохранение логики взаимодействий между предметами
перестройка поведения зависимых объектов после удаления

Пример с причинно-следственной связью

Если удалить человека, который держал гитару, гитара не должна исчезнуть вместе с ним. Корректное «сценное» поведение — гитара окажется на полу. VOID ориентируется именно на такой тип результата, что заметно снижает количество визуальных «ломок» в кадре.

Техническая база и ограничения

В основе VOID — CogVideoX-Fun-5B, 3D diffusion-трансформер. Поддерживаются ролики до 197 кадров с разрешением 384×672.

На вход подаются:

исходное видео
четырехзначная маска области редактирования
текстовое описание сцены после удаления

Текстовое описание фиксирует целевое состояние результата и дополняет маску: модель получает не только «что убрать», но и «каким должен стать кадр».

Практическая польза для продакшена

Удаление объектов в видео традиционно требует ручного ротоскопинга, аккуратного маскирования и композитинга. VOID сокращает долю таких операций и ускоряет итерации, что критично для рекламных роликов, продуктовых демонстраций и быстрых креативных правок. Чем меньше ручного труда уходит на «чистку», тем больше времени остается на постановку и финальную сборку.

Автоматизация как принцип в контент-процессах

Похожая логика работает и в производстве контента: ценность дает скорость, управляемость и повторяемость результата. Kineiro.ru помогает выстроить автономный контент-контур: от анализа тем и структуры до подготовки материалов и публикаций через API площадок (Telegram, ВКонтакте, Одноклассники, Яндекс Дзен и др.), поддерживая единые стандарты качества.

Вывод

VOID демонстрирует сдвиг от пиксельного редактирования к сценному: модель пытается сохранить физическую и визуальную логику, а не просто «убрать объект». Такой подход снижает стоимость постпродакшена и делает результат менее заметным для зрителя, что в итоге и является главным критерием качественной правки.