140,9 тыс подписчиков

Чат-бот ChatGPT внедряет расширенный голосовой режим – без клонированных голосов

1 августа 20241 авг 2024

2 мин

Несколько месяцев назад OpenAI представила расширенный голосовой режим для ChatGPT, и теперь первые пользователи могут опробовать эту функцию. Расширенный голосовой режим обещает более плавное и человечное взаимодействие с ChatGPT в реальном времени. Функция, основанная на GPT 4.0, в настоящее время доступна только некоторым пользователям ChatGPT Plus.

OpenAI применяет очень избирательный подход: только избранные пользователи получают уведомление по электронной почте и в приложении, которое также содержит инструкции по использованию нового языкового режима. Если пользователь еще не получил приглашение, то придется набраться терпения. OpenAI планирует постепенно привлечь больше пользователей к этапу тестирования в ближайшие недели и месяцы. Ожидается, что полное внедрение будет завершено к осени 2024 года, а это означает, что все подписчики Plus получат доступ к сервису.

Расширенный голосовой режим по сравнению с текущим голосовым режимом устраняет необходимость преобразовывать голос в текст и обратно, что приводит к уменьшению задержек. Кроме того, ИИ теперь должен уметь реагировать на такие эмоции, как юмор и сарказм. Что особенно примечательно, разговоры происходят в режиме реального времени и возможны прерывания без разрыва общения.

Презентация нового языкового сервиса ранее вызвала споры. Женский голос «Скай» был очень похож на голос актрисы Скарлетт Йоханссон, известной по фильму «Она». Йоханссон отклонила предложение генерального директора OpenAI Сэма Альтмана стать голосом ChatGPT 4.0. После того, как голос все равно был использован, Йоханссон подала в суд и потребовала удалить голос. OpenAI отреагировала на этот запрос и ввела меры по предотвращению таких ситуаций.Пресс-секретарь OpenAI Тая Кристиансон говорит:

«Мы позаботились о том, чтобы ChatGPT не мог имитировать голоса других людей, как частных, так и публичных, и блокировал вывод, который отличается от любого из этих предустановленных голосов. Теперь в голосовом режиме используются четыре предустановленных голоса и блоки».

Кроме того, были интегрированы механизмы защиты от контента, связанного с насилием и защищенным авторским правом.

После запуска голосового режима осенью 2023 года расширенный режим был впервые представлен на мероприятии, посвященном запуску GPT 4.o, в мае. Он уже показал себя существенно эффективнее. Сотрудники OpenAI на презентации, например, смогли перебивать чат-бота.

Изначально планировалось, что расширенный режим будет выпущен в альфа-версии в июне, но запуск был отложен на месяц, чтобы соответствовать стандартам качества. При этом OpenAI улучшила способность модели распознавать и отклонять определенный контент. Тестирование включало более 45 языков, чтобы обеспечить бесперебойную работу функции по всему миру.

Помимо дальнейшей разработки голосового режима, OpenAI в настоящее время тестирует собственный ИИ-поиск, который может составить серьезную конкуренцию признанным поисковым системам, таким как Google и Bing. В начале августа OpenAI опубликует отчет, в котором будут освещены возможности и проблемы модели искусственного интеллекта GPT-4.0, а также первоначальные результаты тестирования расширенного голосового режима.

Тот факт, что расширенный голосовой режим зарезервирован исключительно для платных клиентов, может позволить OpenAI привлечь новых подписчиков и, таким образом, получить столь необходимый доход.