1135 подписчиков

В Астрахани разрабатывают «аудиодетектор лжи»: нейросеть распознает любые дипфейки

25 февраля25 фев

213

2 мин

В Астраханском государственном техническом университете создают инновационный нейросетевой модуль, который сможет в режиме реального времени выявлять аудиодипфейки любого типа — от полностью синтезированных голосов до клонированных тембров. Разработку ведёт аспирантка кафедры «Автоматизированные системы обработки информации и управления» Ольга Курманова в рамках выпускной квалификационной работы. Идея проекта родилась на стыке науки и творчества: несмотря на техническое образование, Ольга увлекается музыкой — и захотела применить свои знания для решения актуальной проблемы современности. Под руководством завкафедрой «Информационная безопасность», кандидата технических наук, доцента Надежды Давидюк, она взялась за создание инструмента, способного отличать подлинное аудио от фальсифицированного. Чтобы обучить нейросеть, команде пришлось собрать внушительную базу данных: около 70 тысяч аудиоматериалов. В датасет вошли как оригинальные записи, так и дипфейки, созданные с помощью современны

Идея проекта родилась на стыке науки и творчества: несмотря на техническое образование, Ольга увлекается музыкой — и захотела применить свои знания для решения актуальной проблемы современности. Под руководством завкафедрой «Информационная безопасность», кандидата технических наук, доцента Надежды Давидюк, она взялась за создание инструмента, способного отличать подлинное аудио от фальсифицированного.

Чтобы обучить нейросеть, команде пришлось собрать внушительную базу данных: около 70 тысяч аудиоматериалов. В датасет вошли как оригинальные записи, так и дипфейки, созданные с помощью современных технологий. Это позволило модели научиться замечать едва уловимые «следы» подделки, не слышимые человеком, но которые выдают искусственное происхождение звука.

По словам Ольги Курмановой, большинство существующих решений работают по принципу «чёрного ящика»: они просто выдают ответ «да» или «нет», не объясняя, почему запись считается фейковой. Кроме того, многие системы требуют видеоряда для анализа. Разрабатываемый в АГТУ модуль принципиально отличается — он специализируется исключительно на аудио и формирует детализированный отчёт с анализом характерных признаков подделки.

Нейросеть способна распознавать самые разные виды дипфейков. Например, она выявляет случаи полного синтеза голоса, когда нейросеть генерирует речь с нуля по текстовому запросу (технология TTS). Не ускользнёт от её внимания и клонирование голоса (VC): когда злоумышленники меняют тембр, накладывая оригинал на другой голос. Более того, модуль умеет обнаруживать сложный цифровой монтаж — ситуации, в которых фрагменты разных записей искусно склеиваются в единое целое.

Актуальность разработки сложно переоценить: мошенники всё чаще используют поддельное аудио для обмана — например, имитируя голоса близких людей в телефонных звонках или отправляя фальшивые голосовые сообщения в мессенджерах. Новый модуль поможет защитить пользователей и оперативно выявлять подозрительные записи.

Надежда Давидюк подчёркивает: потребность в инструментах для борьбы с дипфейками растёт с каждым днём. Качество поддельных аудио‑ и видеоматериалов постоянно улучшается, а объёмы фальсифицированной информации увеличиваются. На кафедре уже накоплен значительный опыт в этой сфере: студенты и аспиранты анализируют фото‑ и видеоданные, а по теме обнаружения деструктивного текстового контента недавно была защищена диссертация.

В перспективе учёные планируют выйти за рамки аудио. В их планах — создать комплексную систему поддержки принятия решений, которая сможет идентифицировать фальсификации во всех форматах: аудио, видео и тексте. Это станет важным шагом в борьбе с дезинформацией и повысит уровень информационной безопасности в целом.

Гаджеты и электроника

5,73 млн интересуются