23 мая исследователи Массачусетского технологического института в сотрудничестве с командой Google AI представили итоги работы над нейросетью Speech2Face, которая может по короткой аудиозаписи со звучащей речью реконструировать внешность говорящего. Разработчики не преследовали цели добиться точного сходства – проект носил экспериментальный характер и был призван показать, какой объем информации о человеке можно получить, прослушивая его голос.
Нейросеть включает в себя два основных компонента: кодировщик голоса, который создает на базе аудиозаписи спектрограмму и выделяет релевантные признаки, и декодировщик лиц, который выстраивает изображение исходя из полученного списка характеристик. Для обучения кодировщика голоса использовалось несколько миллионов роликов с Youtube, где фигурировало около ста тысяч людей. Длина записей варьировалась; также авторы проекта включили в выборку ряд роликов, где один и тот же человек разговаривает в разных ситуациях и на разных языках