Американские ученые из Массачусетского технологического института представили нейросеть Speech2Face, которая может воссоздавать по спектрограмме речи человека примерное изображение его лица. По голосу человека можно с разной точностью определить некоторые его особенности: легко можно определить пол, чуть сложнее (но все равно возможно) — возраст, а наличие акцента дает общее представление о национальности. В результате этого можно примерно представить, как выглядит человек, но это представление не будет достаточно точным. Нейросеть Speech2Face обучена на нескольких миллионах видео с голосом пользователей. Каждое видео разделено на дорожку аудио и видео. Сам алгоритм разделен на несколько частей: одна из них использует все уникальные особенности лица из видеодорожки для создания снимка лица человека в анфас, другая пытается воссоздать из аудиодорожки ролика спектрограмму речи и смотрит, как выглядит анфас человека, который говорит на оригинальном видео. В методологии нейросети изображен
Нейросеть научилась рисовать лицо человека по его голосу
27 мая 201927 мая 2019
848
1 мин