Найти в Дзене

🗣 VASA-1 от Microsoft превращает фото в анимированное видео за секунды

Microsoft представила новый инструмент на базе ИИ - VASA-1, который способен быстро трансформировать обычное 2D изображение человека в реалистичное видео. Эта разработка обещает устранить недостатки предыдущих попыток создания виртуальных аватаров, таких как неестественная мимика и неправдоподобные движения губ.

🎥
VASA-1 генерирует точно синхронизированные со звуком движения губ, захватывает широкий спектр эмоций и нюансов выражения лица, создает естественные движения головы. Получаемые видео имеют высокое разрешение (512x512 пикселей) и могут создаваться в реальном времени со скоростью до 40 кадров в секунду. Главная цель Microsoft - разработать реалистичные аватары для интерактивного взаимодействия человека и ИИ.

🧠 В отличие от прямой генерации видеокадров, VASA-1 работает в скрытом пространстве, создавая целостную динамику лица и движения головы на основе аудио и других сигналов. Такой подход позволяет значительно снизить вычислительную нагрузку при сохранении детализации и динамики.
В бенчмарках VoxCeleb2 и OneMin-32 VASA-1 показала лучшие результаты по синхронизации звука и губ, согласованности поз со звуком и качеству видео среди всех протестированных методов.

💭 Результаты, демонстрируемые VASA-1, впечатляют своей реалистичностью, хотя при детальном рассмотрении все еще можно уловить некоторую "нечеловечность". Но, учитывая стремительное развитие ИИ-технологий, нет сомнений, что следующие версии будут более совершенными. Microsoft акцентирует внимание на положительном потенциале своей разработки, но признает и риски злоупотребления, поэтому пока не планирует выпускать модель в открытый доступ.

А как вы считаете, в каких областях VASA-1 и подобные технологии могут быть наиболее полезны?