Американская нейросетевая модель Speech2Face, анализируя спектограмму речи человека, научилась создавать более менее-похожее изображение лица, учитывая три параметра: расу, пол и возраст.
Ученые Массачусетского технологического института обучили нейросеть, используя набор данных AVSpeech, состоящий из более миллиона коротких видео с изображением людей. Каждое такое видео разделено на аудио- и видеодорожку.
Только по голосу человека можно определить достаточно точно несколько его особенностей: его пол, возраст и национальную принадлежность. Несмотря на то, что Speech2Face далека от совершенства и все еще не определяет возраст, возможно примерно представить, как выглядит говорящий человек.
Изначально «натренированный» алгоритм VGG-Face, который раньше работал над проектом по определению сексуальной ориентации человека, использует особенные черты человека из определенного кадра для того, чтобы создать изображение лица в анфас с нейтральным выражением. Другая же часть алгоритма, используя аудиодорожки видео и результаты из параллельной нейросети, генерирующей изображение, создает спектограмму речи и выдает примерное изображение лица человека.
Цель исследования состояла в выделении точных параметров возраста, пола и этнической принадлежности. При этом станет возможным создавать анимационные аватары человека по голосу, но далеко не настоящее изображение со 100% точностью.