ИИ превосходит человека в распознавании глубоких аудиоподделок, показало британское исследование
Британские исследователи обнаружили, что даже люди, специально обученные распознавать глубокие подделки, могут неправильно идентифицировать примерно 25–27% аудиоподделок, созданных с помощью нейросетевых алгоритмов, что подчеркивает необходимость использования инструментов и программного обеспечения для их обнаружения в режиме реального времени.
В исследовании приняли участие 500 носителей английского и китайского языков, часть из которых на протяжении всего эксперимента проходила длительное обучение распознаванию глубоких аудиоподделок. Образцы голоса нескольких мужчин и женщин, говорящих на обоих языках, были записаны и использованы для обучения нейронной сети VITS для генерации глубоких подделок.
С помощью обученного ИИ ученые создали 50 коротких аудиозаписей, которые затем были предъявлены участникам исследования. Задача состояла в том, чтобы оценить вероятность того, что каждая запись является глубоким фейком. Одновременно аналогичной оценке подвергался специальный нейросетевой алгоритм LFCC-LCNN, специально предназначенный для обнаружения сгенерированных аудиозаписей и обученный на тех же образцах голоса.
Результаты показали, что как обученные, так и необученные участники смогли точно распознать только 73–75% глубоких подделок, причем эта статистика совпадает как у носителей английского, так и китайского языков. Такие результаты работы человека не шли ни в какое сравнение с системой искусственного интеллекта LFCC-LCNN, которая безупречно идентифицировала все сгенерированные аудиозаписи. Полученные результаты подчеркивают потенциальное превосходство решений на основе ИИ в борьбе с аудиодезинформацией в будущем.
Для чего еще применяют ИИ: