1534 подписчика

ИИ-голоса стали неотличимы от реальных

25 сентября 202525 сен 2025

1 мин

Новое исследование показало, что технология синтеза речи на основе ИИ достигла уровня, когда создаваемые ею «голосовые клоны» (дипфейки) воспринимаются слушателями как такие же реалистичные, как и записи настоящих людей. Работа, проведённая учёными из Лондонского университета королевы Марии (QMUL), была опубликована в журнале PLOS One. Многие до сих пор считают, что речь, сгенерированная ИИ, звучит «неестественно» и её легко отличить от человеческого голоса. Однако исследование, в котором сравнивали настоящие голоса с двумя типами синтетических — клонированными (созданными для имитации конкретного человека) и общими (генерируемыми крупной голосовой моделью) — показало, что эта эпоха прошла. Участники эксперимента оценивали голоса по реалистичности, доминированию и надёжности. Выяснилось, что слушателям крайне сложно отличить клонированные ИИ-голоса от человеческих. Оба типа ИИ-голосов были оценены как более доминирующие, чем человеческие, а некоторые синтетические голоса также восприни

Работа, проведённая учёными из Лондонского университета королевы Марии (QMUL), была опубликована в журнале PLOS One.

Многие до сих пор считают, что речь, сгенерированная ИИ, звучит «неестественно» и её легко отличить от человеческого голоса. Однако исследование, в котором сравнивали настоящие голоса с двумя типами синтетических — клонированными (созданными для имитации конкретного человека) и общими (генерируемыми крупной голосовой моделью) — показало, что эта эпоха прошла.

Участники эксперимента оценивали голоса по реалистичности, доминированию и надёжности. Выяснилось, что слушателям крайне сложно отличить клонированные ИИ-голоса от человеческих. Оба типа ИИ-голосов были оценены как более доминирующие, чем человеческие, а некоторые синтетические голоса также воспринимались как более надёжные (заслуживающие доверия).

Доктор Надин Лаван, соавтор исследования, отмечает, что время, когда ИИ начнёт производить натуральную, человекоподобную речь, наступило. Она подчеркнула, насколько быстро и просто её команда смогла создать точные голосовые клоны, используя коммерчески доступное программное обеспечение.

Стремительное улучшение ИИ-голосов несёт в себе серьёзные этические, юридические последствия и угрозы безопасности. Возрастают риски, связанные с дезинформацией, мошенничеством, несанкционированным использованием голоса и выдачей себя за другое лицо (имперсонация).

В то же время, способность генерировать реалистичные голоса в больших масштабах открывает захватывающие возможности для улучшения доступности, образования и коммуникации, где высококачественные синтетические голоса могут значительно улучшить пользовательский опыт.

Источник: PLOS