В испытаниях алгоритм успешно определил пол , расу и возраст
Новая нейронная сеть, разработанная исследователями из Массачусетского технологического института, способна построить приближенное лицо человека, основываясь исключительно на фрагменте его речи.
Команда обучила инструмент искусственного интеллекта — алгоритму машинного обучения, запрограммированному «мыслить» так же, как человеческий мозг, - с помощью миллионов онлайн-клипов, охватывающих более 100 000 различных докладчиков. Названый Speech2Face, нейронная сеть использовала этот набор данных для определения связей между голосовыми сигналами и определенными чертами лица; Как пишут ученые, возраст, пол, форма рта, размер губ, структура костей, язык, акцент, скорость и произношение — все это влияет на механику речи.
По словам Мелани Эренкранц из Gizmodo, Speech2Face использует ассоциации между внешностью и речью, чтобы генерировать фотореалистичные изображения визуализаций лиц с нейтральными выражениями . Хотя эти изображения слишком общие, чтобы идентифицировать их как отдельного человека, большинство из них точно определяют пол, расу и возраст говорящих.
Интересно, что Джеки Сноу объясняет для Fast Company, что новое исследование не только основывается на предыдущих исследованиях, касающихся предсказания возраста и пола на основе речи, но также подчеркивает связи между голосом и «черепно-лицевыми особенностями», такими как структура носа.
Авторы добавляют: «Это достигается без предварительной информации или наличия точных классификаторов для этих типов точных геометрических элементов».
Тем не менее, алгоритм имеет свои недостатки. Как отмечает Минди Вайсбергер из Live Science, в модели возникают проблемы с анализом языковых вариаций. Например, при воспроизведении аудио клипа азиатского человека, говорящего по-китайски, Speech2Face выдает лицо правильной этнической принадлежности, но когда тот же человек записывается на английском языке, ИИ генерирует изображение белого человека.
В других случаях мужчины с высокими частотами, включая детей, были ошибочно идентифицированы как женщины, что свидетельствует о гендерной предвзятости модели при сопоставлении низких голосов с мужчинами и высоких голосов с женщинами. Учитывая тот факт, что данные обучения были в основном получены из образовательных видео, размещенных на YouTube, исследователи также отмечают, что алгоритм не может «в равной степени представлять все население мира».
По словам Джейн С. Ху из Slate, законность использования видео YouTube для научных исследований достаточно ясна. Такие клипы считаются общедоступной информацией; даже если пользователь защищает авторские права на свои видео, ученые могут включать материалы в свои эксперименты в соответствии с пунктом « добросовестного использования ».
Но этика этой практики менее проста. Беседуя с Ху, Ник Салливан, глава отдела криптографии в Cloudflare, сказал, что он был удивлен, увидев его фотографию, представленную в исследовании команды MIT, поскольку он никогда не подписывал отказ и не слышал напрямую от исследователей. Хотя Салливан говорит Ху, было бы «приятно» получить уведомление о его включении в базу данных, он признает, что, учитывая огромный размер пула данных, ученым будет трудно достучаться до всех изображенных.
В то же время Салливан заключает: «Поскольку мое изображение и голос были выделены в качестве примера в статье Speech2Face, а не просто использованы в качестве точки данных в статистическом исследовании, было бы вежливо обратиться к мне или попроси у меня разрешения.
Одно потенциальное реальное заявление на Speech2Face является использование модели для "приложить представительное лицо" к телефонным звонкам на основе голоса говорящего. Сноу добавляет, что технология распознавания голоса уже используется во многих областях — часто без явного знания или согласия отдельных лиц. В прошлом году Чейз запустил программу « Voice ID », которая научилась распознавать клиентов кредитных карт, звонящих в банк, а исправительные учреждения по всей стране создают базы данных « голосовых отпечатков » заключенных.
Оригинал