OpenAI стремится разрабатывать безопасный и широко полезный искусственный интеллект. Сегодня мы делимся предварительными сведениями и результатами небольшого предварительного просмотра модели под названием Voice Engine. Эта модель использует ввод текста и один 15-секундный аудиосэмпл для генерации естественно звучащей речи, очень похожей на исходную речь. Примечательно, что небольшая модель с единственным 15-секундным семплом способна создавать эмоциональные и реалистичные голоса.
Впервые мы разработали Voice Engine в конце 2022 года и использовали его для поддержки предустановленных голосов, доступных в API преобразования текста в речь, а также ChatGPT Voice и Read Aloud. В то же время мы осторожно и осознанно подходим к более широкому выпуску из-за возможности неправильного использования синтетического голоса. Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов небольших тестов мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах.