Найти тему
10,6 тыс подписчиков

Человек оказался неспособным распознать более четверти звуковых дипфейков


Британские исследователи выяснили, что даже специально обученные люди не способны отличить около 25-27 % аудио-дипфейков, полученных при помощи нейросетевых алгоритмов, от реальных аудиозаписей голосов людей. Это говорит о необходимости создания инструментов и программ, помогающих выявлять подобные подделки в режиме реального времени, сообщила в среду пресс-служба Университетского колледжа Лондона (UCL). Работа была опубликована в издании PLoS ONE.
"Быстрое развитие технологий искусственного интеллекта, способных генерировать медиаконтент, несет за собой не только много возможностей, но и новые риски. Для правительств и коммерческих организаций было бы разумным разработать стратегии и инструменты, позволяющие бороться с неправомерным использованием этих технологий и при этом не ограничивающие перспективы их легального применения", - сказал профессор UCL Льюис Гриффин, чьи слова приводит пресс-служба вуза.
Исследователи пришли к такому выводу в ходе эксперимента, в котором участвовала группа из пяти сотен носителей английского и китайского языков, часть из которых длительное время училась распознавать дипфейки прямо в ходе опытов. Ученые записали образцы голосов нескольких мужчин и женщин, говоривших на этих языках, и использовали их для обучения генерирующей нейросети VITS.
Используя эту систему ИИ, ученые подготовили 50 коротких аудиозаписей, которые они предложили прослушать участникам эксперимента и оценить вероятность того, что данный отрывок является дипфейком. Параллельно аналогичную проверку прошел нейросетевой алгоритм LFCC-LCNN, специально созданный для обнаружения сгенерированных аудиозаписей и обученный на том же наборе образцов.
Последующие наблюдения показали, что и прошедшие обучение добровольцы, и простые обыватели смогли корректно выявить лишь 73-75 % дипфейков, что было одинаково характерно как для англоязычных добровольцев, так и для носителей китайского языка. В этом отношении и те, и другие уступили системе ИИ, которая корректно распознала все сгенерированные аудиозаписи.
Подобные результаты опытов, как считают авторы работы, указывают на необходимость создания новых подходов и инструментов для распознавания дипфейков и предотвращения их неправомерного использования. В частности, ученые предлагают ускорить разработку алгоритмов, подобных LFCC-LCNN по функционалу и способных распознавать дипфейки без длительного обучения.
О дипфейках
Так называемые дипфейки представляют собой реалистичную подмену фотографий, видео и аудиозаписей, которые были сгенерированы при помощи специальных нейросетей. Подобные системы искусственного интеллекта способны "вставлять" неживые объекты и людей в фотографии и видеоролики, а также произносить произвольные фразы голосом определенного человека.
В последние годы злоумышленники начали активно пользоваться дипфейками для различных форм мошенничества, в том числе для съема средств со счетов в банках, что вынуждает правительства и частные компании искать способы борьбы с подобными подделками. В частности, в мире появились специалисты, предположительно способные отличить дипфейки от реального медиаконтента, а также алгоритмы, способные отличать дипфейки от реальных записей и изображений.
Фото: © Артем Геодакян/ТАСС
Человек оказался неспособным распознать более четверти звуковых дипфейков  Британские исследователи выяснили, что даже специально обученные люди не способны отличить около 25-27 % аудио-дипфейков,...
2 минуты