13 подписчиков

OpenAI представляет модель искусственного интеллекта для преобразования текста в голос «Voice Engine»

30 марта 202430 мар 2024

3 мин

Оглавление

Возможности и приложения
Раннее тестирование и разработка
Обеспечение безопасности и ответственности

OpenAI представила Voice Engine, революционную платформу для преобразования текста в голос.

Эта инновационная система использует всего лишь 15-секундный фрагмент голоса человека для создания синтетического голоса, что знаменует собой еще одну важную веху после успешного дебюта модели ИИ для преобразования текста в видео «Sora» в начале этого года.

Возможности и приложения

Voice Engine дает пользователям возможность генерировать синтетические голоса, способные читать текстовые подсказки на разных языках, включая родной язык говорящего.

OpenAI подчеркивает свою приверженность ответственному внедрению, признавая возможность неправильного использования при изучении конструктивных приложений платформы.

Раннее тестирование и разработка

В конце 2022 года OpenAI инициировала разработку Voice Engine, впоследствии применив его для улучшения предустановленных голосов в API преобразования текста в речь, ChatGPT Voice и Read Aloud.

Благодаря мелкомасштабному развертыванию и партнерству компания получила представление о потенциальных вариантах использования в различных отраслях.

Известные ранние приложения включают:

Помощь при чтении: Age of Learning использует Voice Engine для создания естественно звучащих эмоциональных голосов для заранее подготовленного закадрового контента, помогая тем, кто не умеет читать, и детям в обучении. Технология также облегчает персонализированное взаимодействие со студентами в режиме реального времени.

Перевод контента: HeyGen использует Voice Engine для перевода видео, позволяя авторам и компаниям свободно и достоверно обращаться к глобальной аудитории на нескольких языках, сохраняя при этом акцент оригинального говорящего.

Общественные медицинские службы: Dimagi использует Voice Engine для улучшения предоставления основных услуг в отдаленных районах, предоставляя интерактивную обратную связь местным медицинским работникам на их родных языках, включая суахили и шэн.

Дополнительная коммуникация: Livox использует Voice Engine для питания устройств AAC, предлагая людям с ограниченными возможностями уникальные и естественные голоса на нескольких языках, улучшая общение и самовыражение.

Восстановление голоса: Институт нейробиологии Нормана Принца при Lifespan исследует использование Voice Engine в клинических условиях для восстановления речи у людей с нарушениями речи из-за заболеваний, таких как опухоли головного мозга.

Обеспечение безопасности и ответственности

Признавая потенциальные риски, связанные с технологией синтетической речи, OpenAI уделяет первоочередное внимание мерам безопасности и ответственному внедрению.

Партнеры, тестирующие Voice Engine, должны придерживаться строгих политик использования, включая получение явного согласия от оригинальных докладчиков и прозрачное раскрытие пользователям контента, созданного искусственным интеллектом.

OpenAI также реализует такие меры безопасности, как водяные знаки, чтобы отслеживать происхождение сгенерированного звука, и активно контролирует его использование, чтобы предотвратить неправильное использование.

Будущие перспективы и социальные соображения

OpenAI рассматривает Voice Engine как свидетельство своей приверженности исследованию технических возможностей искусственного интеллекта, уделяя при этом приоритетное внимание вопросам безопасности и этики.

Несмотря на то, что технология предварительно тестируется, но не получила широкого распространения, OpenAI поощряет готовность общества решать проблемы, возникающие из-за все более сложных генеративных моделей.

Предложения по повышению устойчивости общества включают поэтапный отказ от голосовой аутентификации, защиту голосов людей с помощью ИИ, просвещение общественности о возможностях и ограничениях ИИ, а также развитие методов проверки подлинности аудиовизуального контента.

Доступность

Несмотря на свои новаторские возможности, Voice Engine остается на стадии предварительной версии и еще не доступен для широкой публики.

OpenAI называет причиной такого осторожного подхода опасения по поводу возможного неправильного использования синтетических голосов, подчеркивая важность ответственного внедрения искусственного интеллекта.