🍿 Netflix Research и INSAIT Sofia University выпустили VOID — опенсорсную модель для удаления объектов из видео с открытыми кодом и весами (Apache 2.0). Ее особенность — правдоподобное редактирование: учитываются тени, отражения, освещение и физические взаимодействия, поэтому сцена «пересобирается» после удаления объекта. Технически модель основана на CogVideoX-Fun-5B и принимает видео, маску и текстовое описание целевой сцены. VOID работает не как простое «стирание» области. Модель стремится сохранить правдоподобность сцены и учитывает физические связи между объектами. Ключевые свойства, которые подчеркиваются в описании решения: Если удалить человека, который держал гитару, гитара не должна исчезнуть вместе с ним. Корректное «сценное» поведение — гитара окажется на полу. VOID ориентируется именно на такой тип результата, что заметно снижает количество визуальных «ломок» в кадре. В основе VOID — CogVideoX-Fun-5B, 3D diffusion-трансформер. Поддерживаются ролики до 197 кадров с разреше
Netflix VOID: опенсорсное удаление объектов из видео с тенями, отражениями и логикой сцены
9 апреля9 апр
2 мин