Найти тему
Журнал «Код»

Microsoft научила нейросеть анимировать фотографии с помощью записей голоса

Скоро любого человека на фото можно будет заставить говорить что угодно, причём с эмоциями. Microsoft создала нейросеть, которая берёт статичный снимок и запись голоса человека, а затем превращает всё это в правдоподобное видео.

Нейросеть обучили на нескольких тысячах видеозаписей нейтральной речи 34 человек. Ещё в 7,4 тысячи роликов люди говорили с теми или иными эмоциями. Также разработчики использовали 100 тысяч отрывков роликов с TED.

Получился алгоритм, который определяет в записи голоса не только фонетические особенности, но и эмоции. Можно взять снимок человека и заставить его что-нибудь говорить с радостью или, например, возмущением.

Пока нейросеть умеет анимировать только шесть эмоций. Но вообще актёрство — это, судя по всему, одна из профессий, которую машины в будущем заберут у человека.

Подписывайтесь на наш канал, чтобы читать новости из будущего!