Найти в Дзене
OVERCLOCKERS.RU

Исследователи разрабатывают способ борьбы с дипфейковыми аудиофайлами

Кажется, с каждым днем становится все труднее доверять тому, что вы видите и слышите в Интернете. Дипфейки и обработанный звук теперь можно создавать одним нажатием кнопки. Новое исследование трех студентов и выпускников Школы информации позволит легко определить подлинность аудиоклипа.

Ромит Баруа, Гаутам Коорма и Сара Баррингтон (все MIMS '23) впервые представили свое исследование по клонированию голоса в качестве последнего проекта для программы магистратуры по управлению информацией и системам.

Работая с профессором Хани Фаридом, команда изучила различные методы, позволяющие отличить настоящий голос от клонированного, предназначенного для того, чтобы выдавать себя за конкретного человека.

«Когда эта команда впервые обратилась ко мне в начале весны 2022 года, я сказал им не беспокоиться о дипфейковом звуке, потому что клонирование голоса пока низкого качества, и пройдет некоторое время, прежде чем нам придется об этом беспокоиться. Я был неправ, и несколько месяцев спустя клонирование голоса с помощью искусственного интеллекта оказалось поразительно успешным, показав, насколько быстро развивается эта технология», — сказал профессор Фарид. «Команда проделала важную работу по выработке ряда идей по обнаружению новой угрозы дипфейкового звука».

Для начала команда сначала проанализировала аудиообразцы реальных и фальшивых голосов, изучая особенности восприятия или закономерности, которые можно идентифицировать визуально. С помощью этого объектива они сосредоточились на рассмотрении звуковых волн и заметили, что настоящие человеческие голоса часто имеют больше пауз и различаются по громкости на протяжении всего клипа. Это связано с тем, что люди имеют тенденцию использовать слова-вставки и могут двигаться вокруг микрофона и от него во время записи.

Анализируя эти особенности, команда смогла определить паузы и амплитуду (постоянство и изменение голоса) как ключевые факторы, на которые следует обратить внимание при попытке определить подлинность голоса. Однако они также обнаружили, что этот метод, хотя и прост для понимания, может давать менее точные результаты.

Затем команда применила более детальный подход, рассматривая общие спектральные характеристики с использованием «готового» пакета анализа звуковых волн. Программа извлекает более 6000 функций, включая сводную статистику (среднее значение, стандартное отклонение и т. д.), коэффициенты регрессии и многое другое, прежде чем сократить число до 20 наиболее важных. Анализируя эти извлеченные функции и сравнивая их с другими аудиоклипами, Баррингтон, Баруа и Коорма использовали эти функции для создания более точного метода.

Однако наиболее точные результаты были получены с изученными функциями, которые включают обучение модели глубокого обучения. Для этого команда передает необработанный звук в модель, из которой она обрабатывает и извлекает многомерные представления, называемые эмбеддингами. После создания модель использует эти внедрения, чтобы различать реальный и синтетический звук.

Этот метод неизменно превосходил два предыдущих метода по точности и зафиксировал ошибку всего в 0% в лабораторных условиях. Несмотря на высокую точность, команда отметила, что этот метод может быть трудно понять без надлежащего контекста.

Команда считает, что это исследование может помочь решить растущую обеспокоенность по поводу использования клонирования голоса и дипфейков в гнусных целях. «Клонирование голоса — один из первых случаев, когда мы наблюдаем дипфейки с реальной полезностью, будь то обход биометрической проверки банка или звонок члену семьи с просьбой о деньгах», — объяснил Баррингтон.

«В опасности больше находятся не только мировые лидеры и знаменитости, но и обычные люди. Эта работа представляет собой значительный шаг в разработке и оценке систем обнаружения, которые будут надежными и масштабируемыми для широкой публики».

После публикации этого исследования онлайн на сервере препринтов arXiv Баррингтон, Баруа и Коорма были приглашены представить свои выводы на различных конференциях, включая саммит Нобелевской премии и конференцию IEEE WIFS (семинар по информационной криминалистике и безопасности) в Нюрнберге, Германия.

«WIFS предоставила отличный форум для взаимодействия с исследователями в области цифровой криминалистики, углубляя наши знания о современных методах криминалистики посредством подробных презентаций и обогащая коллегиальные дискуссии», — сказал Коорма.

«[Это также] предоставило нам прекрасную возможность увидеть исследования лидеров в нашей области, а также найти общую основу для будущего сотрудничества в области обнаружения дипфейков», — добавил Баруа.

Поскольку общество борется с последствиями дипфейков, затрагивающих не только мировых лидеров и знаменитостей, но и обычных людей, это исследование предлагает надежный и масштабируемый подход к защите широкой общественности.

Изучение особенностей восприятия, спектрального анализа и использование передовых моделей глубокого обучения дали многообещающие результаты, и работа команды является решающим шагом на пути к восстановлению доверия к аудиоконтенту в Интернете и снижению рисков, связанных с развитием технологий.