Представьте себе следующий сценарий. Звонит телефон. Офисный работник берет трубку и слышит, как его начальник в панике говорит ему, что она забыла перевести деньги новому подрядчику до того, как ушла на день, и ему нужно это сделать. Она дает ему информацию о банковском переводе, и, когда деньги переведены, кризис предотвращен.
Работник откидывается в кресле, делает глубокий вдох и смотрит, как его начальник входит в дверь. Голос на другом конце звонка не был его начальником. На самом деле, это был даже не человек. Голос, который он услышал, был голосом Deepfake - сгенерированного машиной аудиообразца, созданного для того, чтобы звучать в точности как его босс.
Подобные атаки с использованием записанного звука уже имели место, и разговорные аудиоподделки, возможно, не за горами.
Deepfake, как аудио, так и видео, стали возможны только с развитием сложных технологий машинного обучения в последние годы. Deepfake принесли с собой новый уровень неопределенности вокруг цифровых медиа. Для выявления подделок многие исследователи обратились к анализу визуальных артефактов - мельчайших сбоев и несоответствий, которые встречаются в видеоподделках.
Это не Морган Фримен, но если бы вам об этом не сказали, как бы вы узнали?
Аудиоподделки потенциально представляют еще большую угрозу, поскольку люди часто общаются вербально без видео - например, посредством телефонных звонков, радио и голосовых записей. Такие коммуникации только голосом значительно расширяют возможности злоумышленников по использованию глубоких подделок.
"Для обнаружения аудиоподделок мы и наши коллеги из Университета Флориды разработали методику, которая позволяет измерить акустические и гидродинамические различия между образцами голосов, созданных органично дикторами и синтезированных компьютерами."
- говорят исследователи
Органические и синтетические голоса
Человек вокализирует, нагнетая воздух через различные структуры голосового тракта, включая голосовые складки, язык и губы. Переставляя эти структуры, вы изменяете акустические свойства голосового тракта, что позволяет вам создавать более 200 различных звуков, или фонем.
Однако анатомия человека существенно ограничивает акустическое поведение этих различных фонем, что приводит к относительно небольшому диапазону правильных звуков для каждой из них.
Как работают ваши голосовые органы.
В отличие от этого, аудиоподделки создаются путем предварительного прослушивания компьютером аудиозаписей речи жертвы. В зависимости от используемой техники, компьютеру может потребоваться прослушать всего 10-20 секунд аудиозаписи. Этот звук используется для извлечения ключевой информации об уникальных особенностях голоса жертвы.
Злоумышленник выбирает фразу, которую должен произнести deepfake, а затем, используя модифицированный алгоритм преобразования текста в речь, генерирует аудиообразец, который звучит так, как будто жертва произносит выбранную фразу.
Этот процесс создания одного аудиообразца deepfake может быть выполнен в течение нескольких секунд, что потенциально позволяет злоумышленникам достаточно гибко использовать голос deepfake в разговоре.
Обнаружение аудиоподделок
Первым шагом в отличии речи, произведенной человеком, от речи, сгенерированной глубокими подделками, является понимание того, как акустически смоделировать голосовой тракт. К счастью, у ученых есть методики, позволяющие оценить, как будет звучать человек или какое-то существо, например, динозавр, на основе анатомических измерений его голосового тракта.
"Мы сделали обратное. Перевернув многие из этих методов, мы смогли получить приближенное изображение голосового тракта диктора во время фрагмента речи. Это позволило нам эффективно заглянуть в анатомию диктора, создавшего аудиообразец."
- сказали исследователи
"Отсюда мы предположили, что глубоко подделанные аудиообразцы не будут ограничены теми же анатомическими ограничениями, которые есть у людей. Другими словами, анализ глубоко подделанных аудиообразцов имитировал формы голосового тракта, которые не существуют у людей."
- говорят исследовали
Результаты тестирования не только подтвердили гипотезу, но и выявили кое-что интересное. При извлечении оценок вокального тракта из deepfake аудио мы обнаружили, что оценки часто были комически неверными. Например, часто в результате глубокой фальшивки получались голосовые тракты с таким же относительным диаметром и консистенцией, как у питьевой соломинки, в отличие от голосовых трактов человека, которые гораздо шире и более изменчивы по форме.
Эта реализация демонстрирует, что глубоко подделанное аудио, даже если оно убедительно для человеческого слушателя, далеко не всегда неотличимо от речи, генерируемой человеком. Оценив анатомию, ответственную за создание наблюдаемой речи, можно определить, кем было сгенерировано аудио - человеком или компьютером.
Почему это важно
Современный мир определяется цифровым обменом медиа и информацией. Все - от новостей до развлечений и разговоров с близкими - обычно происходит посредством цифрового обмена. Поддельные видео и аудио даже в зачаточном состоянии подрывают доверие людей к этим обменам, фактически ограничивая их полезность.
Для того чтобы цифровой мир оставался важнейшим источником информации в жизни людей, крайне важны эффективные и безопасные методы определения источника аудиообразца.