Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

Netflix — да, именно Netflix — внедряет ИИ в свой видеоредактор

Модель «видео-язык» пересматривает взаимодействие объектов, когда из сцены что-то удаляется. Netflix представила VOID для физически правдоподобного дорисовки. — theregister.com Новая модель от Netflix обещает переписать способы создания фильмов. Только представьте. Вы — режиссер многомиллионного эпоса «Автокатастрофа III: Самый внезапный удар» — только что закончили съемки финала, где ваш звездный актер, Круз Контрол, на полной скорости врезается в несущийся навстречу грузовик. Столкновение зрелищное. Машина Круза — управляемая дистанционно — взрывается при ударе, разбрасывая обломки по шоссе. Это великолепно. Вы даете «пять» Крузу, который стоит рядом с вами у станции мониторов камеры, наблюдая за завершением своей прибыльной франшизной карьеры, и направляетесь к грузовику с кейтерингом. Ваш продюсер, Майя Кэш, хватает вас за плечо. «Вам это не понравится, — говорит она. — Но что, если Круз просто уедет в закат? Что, если он все-таки не умрет?» Вы делаете паузу и смотрите на нее повер

Модель «видео-язык» пересматривает взаимодействие объектов, когда из сцены что-то удаляется. Netflix представила VOID для физически правдоподобного дорисовки. — theregister.com

Новая модель от Netflix обещает переписать способы создания фильмов. Только представьте. Вы — режиссер многомиллионного эпоса «Автокатастрофа III: Самый внезапный удар» — только что закончили съемки финала, где ваш звездный актер, Круз Контрол, на полной скорости врезается в несущийся навстречу грузовик.

Столкновение зрелищное. Машина Круза — управляемая дистанционно — взрывается при ударе, разбрасывая обломки по шоссе. Это великолепно. Вы даете «пять» Крузу, который стоит рядом с вами у станции мониторов камеры, наблюдая за завершением своей прибыльной франшизной карьеры, и направляетесь к грузовику с кейтерингом.

Ваш продюсер, Майя Кэш, хватает вас за плечо. «Вам это не понравится, — говорит она. — Но что, если Круз просто уедет в закат? Что, если он все-таки не умрет?»

Вы делаете паузу и смотрите на нее поверх ободка своих солнцезащитных очков Balenciaga. «Они все-таки профинансируют четвертую часть?»

Модель VOID от Netflix создана именно для таких моментов. Вместо того чтобы переснимать сцену или полностью переделывать ее с помощью компьютерной графики, вы можете просто трансформировать кадры аварии в развязку, где герой уезжает по открытой дороге.

VOID расшифровывается как Video Object and Interaction Deletion (Удаление объектов и взаимодействие в видео). Это VLM (модель «зрение-язык»), которая может не только стирать объекты из сцены, но и дорисовывать, как оставшиеся объекты должны вести себя без влияния того, что было удалено.

Например, она может превратить лобовое столкновение двух транспортных средств в сцену, где один автомобиль едет по дороге, удалив второй и сгенерировав видео, изображающее физически правдоподобную траекторию оставшегося автомобиля. Обломки после удара, дым и пламя — все стирается и заменяется безупречным асфальтом.

Создатели видеомодели — Саман Мотамед (Netflix/Софийский университет), Уильям Харви (Netflix), Бенджамин Кляйн (Netflix), Люк Ван Гуль (Софийский университет), Чжуонин Юань (Netflix) и Та-Ин Чен (Netflix) — описывают VOID в препринте [PDF] как «фреймворк для удаления объектов из видео, предназначенный для выполнения физически правдоподобного дорисовки в этих сложных сценариях».

Она может удалять объекты и моделировать, как оставшиеся объекты будут вести себя в отсутствие удаленных. Так, получив сцену, где человек прыгает в бассейн и разбрызгивает воду на землю, VOID может удалить этого человека и сгенерировать видео, в котором бассейн выглядит нетронутым, без брызг в бассейне или на земле.

VOID не ограничивается только продукцией Netflix. Компания сделала свою модель доступной на Hugging Face, где ее может установить любой желающий.

Существуют и другие инструменты для изменения видео, такие как Runway, Generative Omnimatte, DiffuEraser, ROSE, MiniMax-Remover и ProPainter. Однако специалисты Netflix утверждают, что VOID значительно превосходит эти альтернативы. На основе опроса 25 человек в различных сценариях, VOID был предпочтен в 64,8 процента случаев, в то время как Runway занял далекое второе место с 18,4 процента.

«Благодаря обширным оценкам по сравнению с базовыми моделями дорисовки и моделями видео с текстовым управлением на синтетических и реальных данных, мы показываем, что VOID превосходно моделирует сложную динамику, которая может последовать за удалением объекта», — заявляют авторы.

Нужен ли миру еще более убедительный видеомонтаж — это уже другой вопрос. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Thomas Claburn

Оригинал статьи