Скоро любого человека на фото можно будет заставить говорить что угодно, причём с эмоциями. Microsoft создала нейросеть, которая берёт статичный снимок и запись голоса человека, а затем превращает всё это в правдоподобное видео.
Нейросеть обучили на нескольких тысячах видеозаписей нейтральной речи 34 человек. Ещё в 7,4 тысячи роликов люди говорили с теми или иными эмоциями. Также разработчики использовали 100 тысяч отрывков роликов с TED.
Получился алгоритм, который определяет в записи голоса не только фонетические особенности, но и эмоции. Можно взять снимок человека и заставить его что-нибудь говорить с радостью или, например, возмущением.
Пока нейросеть умеет анимировать только шесть эмоций. Но вообще актёрство — это, судя по всему, одна из профессий, которую машины в будущем заберут у человека.
Подписывайтесь на наш канал, чтобы читать новости из будущего!