78,4 тыс подписчиков

OpenAI продемонстрировала технологию создания синтетических голосов

30 марта 202430 мар 2024

1 мин

Компания OpenAI официально представила нейросетевую модель генерации голосов Voice Engine, разработка которой велась с конца 2022 года. Ей достаточно всего 15-секундного образца аудиозаписи для создания синтетического голоса. После этого искусственный интеллект способен генерировать аудиозаписи по заданному тексту, в том числе на разных языках.

Фактически технология Voice Engine уже используется в чат-боте ChatGPT для озвучивания генерируемого текста. Только там применяются заранее предустановленные голоса, тогда как новая технология потенциально способна имитировать любой голос. По этой причине OpenAI пока не готова к масштабному развёртыванию нейросети, опасаясь возможности её использования в недобросовестных целях.

«Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов небольших испытаний мы примем более взвешенное решение о том, стоит ли внедрять эту технологию в широких масштабах», — говорится в блоге компании.

На сайте OpenAI представлены примеры работы Voice Engine и несколько потенциальных примеров использования технологии:

Помощи в чтении детям и людям, не умеющим или не способным читать, с помощью естественных, эмоциональных голосов, представляющих более широкий диапазон дикторов, чем это возможно при использовании предустановленных голосов.
Перевод контента, например, видеороликов и подкастов, что позволит авторам и компаниям донести информацию до большего числа людей по всему миру, используя собственные голоса.
Охват глобальных сообществ путём улучшения предоставления основных услуг в удалённых районах.
Использование людьми с заболеваниями, влияющими на речь.
Помощь людям в восстановлении голоса, страдающим от внезапных или дегенеративных заболеваний речи.

Партнёры OpenAI, получившие доступ к Voice Engine, согласились с политикой компании, запрещающей выдавать себя за другое физическое лицо или организацию без согласия или законного права.

«Мы считаем, что любое широкое внедрение технологии синтетического голоса должно сопровождаться голосовой аутентификацией, которая подтверждает, что оригинальный диктор сознательно добавляет свой голос в сервис, и списком запрещённых голосов, который выявляет и предотвращает создание голосов, слишком похожих на известных личностей», — подчёркивает компания.