Добавить в корзинуПозвонить
Найти в Дзене
KolerskyAI

OpenAI выпустил новые модели голосового искусственного интеллекта с настраиваемыми стилями речи

OpenAI выпустила аудиомодели нового поколения, которые позволяют разработчикам настраивать манеру речи своих помощников по искусственному интеллекту. Обновление включает улучшенное распознавание речи и возможность управлять стилем речи искусственного интеллекта с помощью простых текстовых команд. Согласно OpenAI, их новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe демонстрируют более низкий уровень ошибок при преобразовании речи в текст, чем предыдущие системы Whisper. Компания заявляет, что эти модели лучше работают в сложных условиях, таких как сильный акцент, шумная обстановка и разная скорость речи. Наиболее примечательной особенностью является новая модель преобразования текста в речь gpt-4o-mini-tts. Система реагирует на инструкции по стилю, такие как "говори как пират" или "расскажи это как сказку на ночь", позволяя разработчикам точно настроить способ общения голосом искусственного интеллекта. Эти возможности построены на архитектурах OpenAI GPT-4o и GPT-4o-mini, которые
Оглавление

OpenAI выпустила аудиомодели нового поколения, которые позволяют разработчикам настраивать манеру речи своих помощников по искусственному интеллекту. Обновление включает улучшенное распознавание речи и возможность управлять стилем речи искусственного интеллекта с помощью простых текстовых команд.

Согласно OpenAI, их новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe демонстрируют более низкий уровень ошибок при преобразовании речи в текст, чем предыдущие системы Whisper. Компания заявляет, что эти модели лучше работают в сложных условиях, таких как сильный акцент, шумная обстановка и разная скорость речи.

Наиболее примечательной особенностью является новая модель преобразования текста в речь gpt-4o-mini-tts. Система реагирует на инструкции по стилю, такие как "говори как пират" или "расскажи это как сказку на ночь", позволяя разработчикам точно настроить способ общения голосом искусственного интеллекта. Эти возможности построены на архитектурах OpenAI GPT-4o и GPT-4o-mini, которые обрабатывают несколько типов ввода и вывода мультимедиа.

Согласно OpenAI, улучшенная производительность обусловлена специальной предварительной подготовкой наборов аудиоданных для более тонкого понимания речи, более эффективными методами обработки моделей и расширенным использованием обучения с подкреплением при распознавании речи. Компания внедрила методы "самостоятельного воспроизведения" для имитации естественных моделей разговора.

Доступ разработчика и ограничения

Теперь разработчики могут получить доступ к этим моделям через API OpenAI и интегрировать их с помощью Agents SDK. Для приложений реального времени OpenAI предлагает использовать свой Realtime API с возможностями преобразования речи в речь.

На данный момент система работает только с предустановленными искусственными голосами OpenAI - разработчики не могут создавать новые голоса или клонировать существующие. Компания заявляет, что планирует разрешить использование пользовательских голосов в будущем, сохраняя стандарты безопасности, и стремится расширить использование видео для мультимодального взаимодействия.

Это обновление следует за представлением OpenAI Voice Engine в марте 2024 года, которое было ограничено их собственными продуктами и избранными клиентами. Более ранняя модель, похоже, была заменена более широкими мультимодальными возможностями GPT-4o.

Как пользоваться нейросетями OpenAI без VPN в России?

Сервисы от KolerskyAI дают возможность пользоваться ИИ без VPN, иностранного номера и иностранных карт.

Какие там есть сервисы от OpenAI?

ChatGPT:

Безлимитная версия модели gpt-4o-mini

GPT-4o с расшифровкой картинок

Расшифровка аудио в текст - whisper

Краткие сведения

  • OpenAI выпустила улучшенные аудиомодели gpt-4o-transcribe и gpt-4o-mini-transcribe, которые обеспечивают более надежное преобразование речи в текст и лучшую обработку сложных звуковых условий, таких как фоновый шум и акценты.
  • Новая модель преобразования текста в речь gpt-4o-mini-tts позволяет разработчикам задавать желаемый стиль речи с помощью текста, например, имитировать голос пирата.
  • Созданные на основе технологии GPT-4o, модели теперь доступны разработчикам, а OpenAI планирует дальнейшие усовершенствования, включая поддержку пользовательских голосов и включение возможностей видеосвязи.