139,5 тыс подписчиков

В ChatGPT на следующей неделе включат «человеческий» голосовой режим

28 июля 202428 июл 2024

3 мин

Основатель OpenAI Сэм Альтман в социальной сети X сообщил о том, что альфа-тестирование новейшего голосового режима для ChatGPT начнётся уже на следующей неделе. Пока лишь для платных подписчиков, однако в будущем «человеческий» голос ChatGPT наверняка будет развёрнут уже для всех пользователей.

Напомним, впервые «слушать» и «говорить» ChatGPT научился ещё прошлой осенью. Его голос даже на русском языке уже тогда звучал весьма неплохо. Однако в мае текущего года был анонсирован голосовой режим 2.0, именно он сейчас наконец-то может стать доступен части пользователей.

В чём новшества? Прежде всего, в сверхбыстром времени отклика. Если текущий голосовой режим выдаёт ответы на ваши сообщения с задержкой от 3 до 5 секунд, то в обновлённом режиме такая задержка составляет всего лишь около 230-320 миллисекунд. То есть она сокращена более чем в 10 раз и теперь соответствует уровню человека. Это здорово усиливает эффект погружения во время общения с нейросетью.

Отвечая на вопрос пользователя, Альтман лично подтвердил скорый запуск новинки.

Среди прочего данное изменение также позволяет ChatGPT выступать в режиме переводчика в реальном времени. Кроме того, благодаря столь быстрому времени отклика ассистента теперь можно перебивать, на что он молниеносно среагирует, перестав говорить.

Ещё одно важное новшество – ChatGPT научился значительно более качественно имитировать эмоции и менять свои интонации в зависимости от контекста беседы. То есть он может смеяться, удивляться или, напротив, быть предельно серьёзным. К слову, ваши интонации, а также фоновые звуки ассистент тоже теперь будет понимать существенно лучше.

Пожалуй, самой любопытной особенностью является возможность создания для ChatGPT собственного голоса вместо выбора из нескольких предустановленных, как сейчас. Можно, например, попросить ассистент говорить голосом какого-то известного или вымышленного персонажа.

В этом году ChatGPT также должен обрести приложение для Windows и возможность «видеть» экран пользователя. Сейчас подобное в тестовом режиме есть на Mac.

Вряд ли ChatGPT можно будет упросить говорить голосами известных реальных людей, однако попросить использовать хотя бы похожий голос можно будет попробовать.

Наконец, новый голосовой движок позволит ChatGPT петь (!) и имитировать различные звуки. Таким образом, умный бот отчасти превращается в конкурента для Suno, Udio и ElevenLabs. Первые два сервиса создают музыку с вокалом, а ElevenLabs специализируется на генерации и клонировании голосов, а также создании собственных звуков.

Не факт, что все перечисленные возможности будут доступны уже в альфа-версии нового голосового режима, однако всё это было обещано OpenAI ещё на майской презентации.

Заметим, что компания в последние недели проявляет очень высокую активность. Так, пару недель назад была анонсирована новая ИИ-модель GPT-4o mini. В тестах она лишь незначительно уступает флагманской GPT-4o, но при этом стоит в разы дешевле. Новая GPT-4o mini уже стала основой бесплатной версии ChatGPT, заменив старую модель GPT-3.5 Turbo.

Тесты GPT-4o mini на фоне GPT-4o, конкурентов и предшественника.

В свою очередь, на этой неделе OpenAI анонсировала альфа-тест SearchGPT – своей собственной поисковой системы, где ИИ и поисковый движок работают как единое целое.

Ну а до конца года у компании могут быть ещё более крупные планы. ChatGPT обещают обучить не просто понимать картинки, как сейчас, но и видео в режиме реального времени (например, с камеры смартфона или экрана монитора).

А на смену GPT-4o может прийти некая значительно более сильная модель с особо продвинутыми возможностями рассуждения, логики и самообучения (предположительно, это ещё не GPT-5). Наконец, обещают всё же открыть доступ к мощному видеогенератору Sora. Впечатляющая демонстрация последнего состоялась ещё в феврале, а с тех пор свет увидели несколько его конкурентов.