Найти в Дзене
SEBERD IT Base

[956] Как мошенники клонируют голос за 3 секунды с помощью нейросетей

ПРЕДУПРЕЖДЕНИЕ: Статья предназначена для повышения осведомленности о киберугрозах и методах защиты. Все методы и инструменты, упомянутые в статье, должны использоваться только в законных целях, с разрешения владельцев систем и в рамках действующего законодательства. Нейросеть не записывает голос и не хранит его копию. Она строит числовую модель того, как человек звучит, и потом произносит этой моделью любой текст. Именно поэтому мошеннику не нужна длинная запись. Нужна чистая. Голосовые сообщения в Telegram подходят идеально. Чистый звук, разные интонации, разговорная речь. Если мошенник получил доступ к чужому аккаунту, у него есть всё необходимое, чтобы синтезировать голос владельца и отправить его друзьям с просьбой срочно перевести деньги. Голос представляет собой звуковую волну. Записать её напрямую и «сравнивать» с другими записями не получится: одна и та же фраза каждый раз звучит немного по-другому. Разный темп, другое настроение, фоновый шум. Нейросети нужно что-то более стаб
Оглавление

Как мошенники клонируют голос с помощью нейросетей

ПРЕДУПРЕЖДЕНИЕ: Статья предназначена для повышения осведомленности о киберугрозах и методах защиты. Все методы и инструменты, упомянутые в статье, должны использоваться только в законных целях, с разрешения владельцев систем и в рамках действующего законодательства.

Нейросеть не записывает голос и не хранит его копию. Она строит числовую модель того, как человек звучит, и потом произносит этой моделью любой текст. Именно поэтому мошеннику не нужна длинная запись. Нужна чистая.

Голосовые сообщения в Telegram подходят идеально. Чистый звук, разные интонации, разговорная речь. Если мошенник получил доступ к чужому аккаунту, у него есть всё необходимое, чтобы синтезировать голос владельца и отправить его друзьям с просьбой срочно перевести деньги.

Как нейросеть строит модель голоса

Голос представляет собой звуковую волну. Записать её напрямую и «сравнивать» с другими записями не получится: одна и та же фраза каждый раз звучит немного по-другому. Разный темп, другое настроение, фоновый шум. Нейросети нужно что-то более стабильное. Поэтому запись сначала преобразуют в мел-спектрограмму. Звуковая волна разбивается на короткие фрагменты по несколько миллисекунд, и для каждого вычисляется набор чисел: насколько интенсивно звучат разные частоты в этот момент. Получается двумерная карта, где по горизонтали время, по вертикали частоты, а яркость каждой точки показывает интенсивность.

https://seberd.ru/956/
https://seberd.ru/956/

Мел-шкала при этом устроена так, чтобы математика соответствовала тому, как слышит человек: низкие частоты размазаны шире, высокие сжаты. Это важно, потому что ухо чувствительнее к изменениям в нижнем диапазоне.

Из мел-спектрограммы специальная нейросеть, которую называют кодировщиком диктора, извлекает вектор говорящего. Вектор представляет собой список чисел, обычно несколько сотен. Каждое число кодирует какую-то характеристику голоса: тембр, распределение частотных пиков, ритм дыхания, особенности произношения отдельных звуков. Ключевая идея в том, что этот вектор остаётся примерно одинаковым для разных фраз одного человека, но сильно отличается от векторов других людей. Кодировщик диктора обучается на огромных массивах голосов именно для того, чтобы научиться выделять устойчивые характеристики и игнорировать случайные.

Дальше работает синтезатор. Он берёт текст, который нужно произнести, разбивает его на фонемы, то есть минимальные звуковые единицы, и генерирует новую мел-спектрограмму. Но уже не просто речь, а речь с характеристиками конкретного голоса из вектора. Синтезатор условно спрашивает себя: как бы этот человек произнёс вот этот звук, с его тембром и его манерой?

На последнем шаге вокодер превращает спектрограмму обратно в звуковую волну. Это отдельная нейросеть, которая умеет восстанавливать реалистичный звук из числового представления. Вокодер генерирует аудио по одному короткому фрагменту за раз, каждый раз опираясь на предыдущий. Поэтому он сохраняет плавность и естественность речи. Весь процесс занимает секунды на обычном компьютере с видеокартой. Без видеокарты дольше, но всё равно минуты.

Почему одна запись работает, а другая нет

Кодировщик диктора учится выделять характеристики голоса из фрагментов, которые ему даёт исходная запись. Если в записи много постороннего шума, он попадает в обучение вместе с голосом. Нейросеть не знает что шум посторонний. Она видит только числа. В результате вектор диктора будет описывать не чистый голос, а голос плюс шум конкретного помещения. При синтезе эта примесь воспроизведётся как дрожание, призвуки или неестественные артефакты на согласных.

Голосовое сообщение из мессенджера, записанное в тихой комнате, даёт чистый материал. Запись с корпоративного вебинара, где докладчик говорит в микрофон, тоже подходит. Запись телефонного разговора с шумом улицы не подходит. Есть ещё один параметр: разнообразие интонаций. Если человек читает один и тот же текст монотонно, кодировщик не увидит вариативность голоса и построит упрощённую модель. Разговорная речь с вопросами, восклицаниями, паузами даёт лучший вектор. Именно поэтому голосовые сообщения из переписки ценнее публичных выступлений: там живые разговоры, а не деловые монологи.

Русский язык синтезируется хуже английского. Причина в морфологии: падежные окончания меняют звучание одного и того же слова, стечения согласных требуют от синтезатора точного воспроизведения переходов между звуками. На коротких простых фразах это незаметно. На длинных предложениях со сложной грамматикой начинают проявляться артефакты. Мошенники это знают. Атаки строятся на коротких командных фразах: «мне нужна помощь, переведи пожалуйста», «срочно, потом объясню», «я на встрече, не могу говорить». Ограничение технологии стало частью схемы.

Откуда мошенники берут исходную запись

Взломанный аккаунт в Telegram даёт самый ценный материал, и вот почему. Голосовые сообщения из личной переписки содержат именно тот тип речи, который даёт хороший вектор: разговорные интонации, вопросы, эмоциональные реакции, чистый звук без студийной обработки. Модель, обученная на таком материале, воспроизводит не только тембр, но и речевые привычки: характерные паузы, манеру говорить в неформальной обстановке. Сам взлом аккаунта чаще всего происходит через фишинговые ссылки. Человеку приходит сообщение с просьбой проголосовать в конкурсе, подтвердить номер или получить приз. Ссылка ведёт на поддельную страницу авторизации Telegram, которая запрашивает код из SMS. После ввода кода мошенник заходит в аккаунт, скачивает переписку и голосовые сообщения, а потом либо продолжает использовать аккаунт для рассылки, либо восстанавливает его владельцу после того как взял нужное.

Публичные источники тоже используют, особенно для целевых атак. Подкасты, записи вебинаров, интервью в деловых изданиях. Всё это открытые источники с чистым звуком. Для руководителей компаний, преподавателей, медийных людей такой материал найти несложно.

Есть схема, о которой говорят меньше. Мошенники звонят людям, представляясь сотрудниками исследовательских организаций, и просят пройти короткий опрос. Несколько развёрнутых ответов с разной интонацией. Запись получена. Человек кладёт трубку, не подозревая что только что предоставил биометрический материал.

Как работает атака и зачем нужна срочность

Самая распространённая схема сейчас. Мошенник взламывает аккаунт в Telegram, скачивает голосовые сообщения, обучает модель, генерирует сообщение с просьбой о деньгах и рассылает контактам жертвы. Получатель видит знакомый аккаунт и слышит знакомый голос. Поверх синтезированного голоса накладывают эффект плохой связи или лёгкий фоновый шум. Артефакты синтеза маскируются под артефакты канала.

Синтезированный голос не умеет вести диалог. Он произносит заготовленный текст. Если получатель начинает задавать вопросы, у мошенника есть два варианта: переключиться на текстовые ответы или оборвать контакт. Именно поэтому в сообщении всегда присутствует срочность. «Я сейчас не могу говорить, потом объясню». Не психологический трюк, а конструктивная необходимость. Срочность закрывает возможность диалога раньше, чем получатель успевает заподозрить неладное.

Признаки подделки слышно при внимательном прослушивании: дрожание на шипящих звуках, неестественная равномерность громкости без спадов в конце фраз, отсутствие случайных микропауз внутри предложений. Живой голос неровный. Синтез этой неровности почти не воспроизводит.

[√] Любой запрос денег через мессенджер подтверждать звонком на номер из телефонной книги, не отвечать по тому же каналу

[√] Договориться с близкими о кодовом слове для нестандартных ситуаций. Таком которое не прозвучит в публичных записях и которое сложно угадать

[ ] Проверить, кто имеет доступ к голосовым сообщениям в настройках приватности мессенджеров

[x] Считать голос в сообщении достаточным доказательством личности отправителя

Почему голосовая верификация в банках не защищает от синтеза

Банковские IVR-системы (интерактивные голосовые меню, которые идентифицируют клиента по голосу) анализируют ограниченный набор параметров. Основная частота речи, темп, общий тембральный профиль. Это примерно то же самое что проверять пароль по первым трём символам. Проблема в архитектуре. Такие системы создавались для защиты от случайных попыток угадать голос, а не от направленного синтеза. Синтезатор воспроизводит именно те характеристики, которые система проверяет, потому что они входят в вектор диктора. Обход таких систем с помощью синтезированного аудио демонстрировали на профильных конференциях по безопасности, материалы публиковались в открытом доступе.

Перспективное направление, над которым работают разработчики в банковской сфере, называют поведенческой биометрией. Система анализирует не как звучит голос, а как человек разговаривает. Длительность пауз перед ответом, реакция на неожиданные вопросы, частота переспрашивания, паттерны навигации по меню. Синтезированный голос, зачитывающий заготовленный текст, ведёт себя совсем иначе чем живой человек. Такие системы существуют и тестируются, но в массовое банковское обслуживание пока не вошли.

Что изменит синтез голоса в реальном времени

До недавнего времени клонирование голоса работало только в режиме заранее подготовленных сообщений. Полноценный диалог был невозможен: нейросеть не успевала обрабатывать входящую речь и генерировать ответ без заметной паузы. Задержка в несколько секунд делала разговор неестественным.

Сейчас появились системы с задержкой в доли секунды. Они в реальном времени анализируют речь собеседника, определяют контекст и транслируют синтезированный ответ голосом выбранного человека. Полноценный телефонный разговор от имени другого человека стал технически возможным. Пока такие системы требуют высокопроизводительного оборудования и стабильного подключения, что ограничивает их практическое применение. Это не навсегда.

Обсуждается законопроект об ответственности за создание дипфейков. Авторы предлагают криминализировать любую обработку чужих биометрических данных с помощью ИИ. Проблема в формулировке: под неё подпадают и легальные применения. Врачи восстанавливают речь пациентов после операций на основе старых голосовых записей. Компании создают синтетические голоса для навигаций и сервисов с явного согласия. Разграничить в нынешней редакции непросто. Статья 152.1 ГК РФ защищает изображение гражданина, но не голос. До принятия специального регулирования уголовная ответственность наступает только при доказанном умысле: мошенничество, шантаж, незаконное использование персональных данных.

Главная уязвимость здесь не техническая. Системы, где одно голосовое сообщение запускает денежный перевод без дополнительного подтверждения, были уязвимы и до появления синтеза. Нейросети сделали атаку дешевле, быстрее и доступнее.

#кибербезопасность #информационнаябезопасность #защитаданных #киберугрозы #инфобез #безопасность #технологии