OpenAI начала выпуск долгожданного режима расширенного голоса для ChatGPT, предоставляя некоторым подписчикам Plus доступ к гиперреалистичным аудио взаимодействиям на базе модели GPT-4o. Как сообщает TechCrunch, новая функция обещает более естественные и оперативные разговоры с ИИ, включая возможность прерывать его на середине фразы и обнаруживать эмоциональные интонации.
Введение расширенного голосового режима
30 июля 2024 года OpenAI представила альфа-версию Расширенного Голосового Режима для группы подписчиков ChatGPT Plus. Эта новая функция, работающая на модели GPT-4o, представляет значительный шаг вперёд в взаимодействии человека с ИИ, предлагая гиперреалистичные аудиоответы и разговоры в реальном времени. В отличие от предыдущего голосового режима, который использовал отдельные модели для преобразования речи в текст и обратно, мультимодальные возможности GPT-4o позволяют обрабатывать аудиозадачи без задержек. Компания планирует постепенно расширять доступ к функции для всех пользователей Plus к осени 2024 года, что даст время на тщательное тестирование и улучшение технологии.
Основные функции и возможности
Расширенный голосовой режим предлагает разговоры в реальном времени с минимальной задержкой, позволяя пользователям прерывать ChatGPT на середине предложения для более естественного взаимодействия. Система может распознавать и реагировать на различные эмоциональные тона, включая грусть, возбуждение и даже пение. Для предотвращения злоупотреблений и защиты конфиденциальности OpenAI ограничила функцию четырьмя предустановленными голосами - Juniper, Breeze, Cove и Ember, созданными в сотрудничестве с профессиональными актёрами озвучивания. Эти голоса заменили спорный голос "Sky" из начальной демонстрации, гарантируя, что ChatGPT не сможет имитировать конкретных людей или публичных личностей.
Меры безопасности и план выпуска
Для ответственного внедрения OpenAI реализовала надёжные меры безопасности для расширенного голосового режима. Компания протестировала функцию с участием более 100 внешних экспертов по безопасности на 45 языках и создала системы, блокирующие выходы, отличные от предустановленных голосов. Фильтры предотвращают генерацию насильственного или защищённого авторским правом контента, устраняя опасения по поводу возможного злоупотребления. План выпуска предусматривает осторожный подход, с пристальным мониторингом использования и постепенным расширением доступа. Некоторые подписчики Plus уже получили приглашения, а к концу осени 2024 года функция станет доступна всем пользователям Plus, что позволит улучшить технологию и решить возникающие проблемы.
Будущие разработки
Разработка расширенного голосового режима столкнулась с противоречиями, когда в начальной демонстрации в мае 2024 года использовался голос, напоминающий голос актрисы Скарлетт Йоханссон, которая ранее отказалась от предложения стать голосом ChatGPT. Это привело к судебному разбирательству и последующему удалению голоса "Sky". В будущем OpenAI планирует внедрить дополнительные функции, такие как видеозвонки и демонстрация экрана, которые были представлены на весеннем обновлении, но не включены в текущую альфа-версию. Компания также готовит отчёт о своих мерах безопасности, который ожидается в начале августа, с подробным описанием обширных тестирований с участием внешних экспертов по безопасности на нескольких языках.