4 подписчика

Забудьте про хромакей: Netflix открыл код нейросети VOID, которая удаляет объекты из видео и переписывает законы физики

18 апреля18 апр

3 мин

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI». У видеомонтажа в Голливуде всегда был один неприятный секрет: стереть объект из кадра легко, но заставить сцену выглядеть так, будто его там никогда не было, — невероятно сложно. Представьте, что вы удаляете из кадра человека, который держал гитару. Обычный искусственный интеллект просто замажет фигуру человека фоном, а гитара останется парить в воздухе вопреки гравитации. Или вы убираете футболиста, а мяч продолжает отскакивать от невидимой ноги. Команды по спецэффектам тратят недели на исправление таких косяков. Но на днях компания Netflix совместно с исследователями из INSAIT буквально сломала индустрию. Они выпустили в открытый доступ модель VOID (Video Object and Interaction Deletion), которая не просто закрашивает пиксели, а понимает причинно-следственные связи и физику. Я изучил техническую документацию и тесты энтузиастов, и готов рассказать, как работает эта магия. 🧠 Проблема «парящей гитары» решена Существую

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI».

У видеомонтажа в Голливуде всегда был один неприятный секрет: стереть объект из кадра легко, но заставить сцену выглядеть так, будто его там никогда не было, — невероятно сложно. Представьте, что вы удаляете из кадра человека, который держал гитару. Обычный искусственный интеллект просто замажет фигуру человека фоном, а гитара останется парить в воздухе вопреки гравитации. Или вы убираете футболиста, а мяч продолжает отскакивать от невидимой ноги.

Команды по спецэффектам тратят недели на исправление таких косяков. Но на днях компания Netflix совместно с исследователями из INSAIT буквально сломала индустрию. Они выпустили в открытый доступ модель VOID (Video Object and Interaction Deletion), которая не просто закрашивает пиксели, а понимает причинно-следственные связи и физику. Я изучил техническую документацию и тесты энтузиастов, и готов рассказать, как работает эта магия.

🧠 Проблема «парящей гитары» решена

Существующие инструменты для инпейнта (закрашивания) видео работают как очень хорошие художники по фонам. Они смотрят на соседние пиксели и дорисовывают то, что должно быть за удаленным объектом. Но они не понимают физику.

Модель VOID решает эту фундаментальную задачу. Если вы удаляете из видео автомобиль, в который должна была врезаться другая машина, ИИ понимает, что без препятствия вторая машина просто поедет дальше. Если убрать человека с гитарой, гитара реалистично упадет на пол. Модель анализирует сцену и моделирует, что должно упасть, остановиться или изменить направление.

⚙️ Как это работает под капотом?

В основе системы лежит мощная открытая модель CogVideoX на 5 миллиардов параметров (которая работает с 3D-трансформерами). Но главный секрет Netflix кроется в двух вещах:

1. Инновационная Quadmask (Четверная маска) Вместо того чтобы просто сказать нейросети «удали вот это», VOID использует сложную семантическую маску с четырьмя значениями. ИИ размечает кадр:

0: Сам объект, который нужно стереть.
127: Зона физического взаимодействия (например, предметы, которые упадут или сдвинутся).
63: Зона перекрытия.
255: Фон, который трогать нельзя.

2. Двухэтапная генерация Видео-нейросети часто грешат тем, что объекты со временем начинают «плыть» или деформироваться (морфинг). Поэтому VOID работает в два прохода:

Pass 1: Удаляет объект и генерирует физику падения.
Pass 2: Использует векторы оптического потока (отслеживая движение пикселей), чтобы стабилизировать форму предметов и убрать шум на длинных видео.

🎮 Как научить ИИ физике без реальных видео?

Здесь кроется самое гениальное. Чтобы научить ИИ понимать, как падают предметы, нужны парные видео: одно обычное, а второе — точно такое же, но без человека и с падающими вещами. Снять такое в реальности невозможно.

Разработчики обошли эту проблему с помощью синтетических данных. Они взяли 3D-симуляции в программе Blender (на базе датасета HUMOTO) и фреймворке Kubric. В 3D-сцене они программно удаляли цифрового персонажа, и физический движок сам просчитывал, как поведут себя предметы под действием гравитации. На этих идеальных симуляциях ИИ и выучил законы физики!

💻 Запускаем убийцу VFX на домашнем ПК

Самая крутая новость — код и веса модели полностью открыты. Энтузиасты уже протестировали ее локально. Да, для генерации самой маски и полного цикла по инструкции разработчиков желательно иметь видеокарту уровня A100 на 40 ГБ VRAM. Но популярный блогер Fahd Mirza смог запустить только стадию инференса (вывода) через интерфейс Gradio на Ubuntu-сервере, и модель потребляла чуть менее 13 ГБ видеопамяти!. На генерацию короткого ролика у него ушло около 2 минут.

Для Netflix это способ экономить миллионы долларов на пересъемках из-за забытого в кадре стаканчика кофе или случайно попавшего в объектив члена съемочной группы (теперь это убирается парой кликов). Но для индустрии это палка о двух концах. С одной стороны, независимые авторы получают голливудские спецэффекты бесплатно. С другой — это прямой путь к созданию идеальных дипфейков, когда из видео можно бесшовно стереть любого человека вместе со всеми его физическими следами.

А сколько видеопамяти в вашей системе? Хватит ли 13–15 ГБ VRAM, чтобы потестировать такую физическую нейросеть дома, или пока проще арендовать сервер? Пишите в комментариях — обсудим!

Не забудьте подписаться на «YAinvest AI», чтобы не пропустить свежие тесты локальных LLM, обзоры серверного железа и самые горячие инсайды из мира технологий. Дальше будет только интереснее!