Разработка Microsoft VASA-1 может создать реалистичную «говоряющую голову» на основе всего одной фотографии и аудиоклипа.
На днях Microsoft представила новый инструмент на базе искусственного интеллекта VASA-1, который умеет создавать реалистичные видеоролики с лицами говорящих людей. Для генерации нужна всего одна фотография и аудиоклип.
Система способна воссоздать широкий спектр эмоций и даже микровыражения с учетом наклона головы и точных движений губ. Инструмент на базе искусственного интеллекта VASA-1 умеет генерировать видеоролики в лицами со скоростью до 40 кадров в секунду и даже встраивает «задержку», создающую основу для разговорного взаимодействия в реальном времени. Так что будет нелегко определить, кто же перед вами на экране – настоящий человек или человекоподобный аватар.
Технологию планируют применять достаточно широко: в сфере здравоохранения, в образовании, в игровых средах и конечно же в услугах и розничной торговле. Беспокойство вызвано тем, что у технологии огромный потенциал для использования во вред и она чудо как хороша для производства дипфейков.
Но Microsoft клятвенно заявляет, что в настоящее время инструмент - это исселедовательский проект и в широкие массы Vasa-1 не выпустят. Пока.
Здесь можно посмотреть как именно Vasa-1 работает и в чем там фишка
А тут в подкасте TWiT технологию разбирают уважаемые эксперты