Добавить в корзинуПозвонить
Найти в Дзене
ТехноМир

Amazon представляет Nova Sonic: ИИ-модель с рекордной точностью распознавания речи

В гонке за лидерство в сфере искусственного интеллекта Amazon сделала мощный шаг вперед, представив свою новую ИИ-модель Nova Sonic, предназначенную для обработки голосовых команд и генерации естественной речи. Компания утверждает, что Nova Sonic не только достигает уровня, сопоставимого с передовыми разработками OpenAI и Google, но и является «самой экономически эффективной» голосовой ИИ-моделью на рынке, предлагая экономию до 80% по сравнению с GPT-4o от OpenAI. Nova Sonic позиционируется как прямой конкурент новейшим голосовым моделям, таким как технология, лежащая в основе Voice Mode в ChatGPT. В отличие от устаревших цифровых помощников, таких как Alexa и Siri, которые часто звучат неестественно и скованно, Nova Sonic обещает более плавное и интуитивное взаимодействие. Технология уже доступна через Bedrock, платформу Amazon для разработки корпоративных ИИ-приложений, использующую двунаправленный потоковый API. Это открывает широкие возможности для интеграции Nova Sonic в различ
Оглавление

Источник фото: Amazon
Источник фото: Amazon

В гонке за лидерство в сфере искусственного интеллекта Amazon сделала мощный шаг вперед, представив свою новую ИИ-модель Nova Sonic, предназначенную для обработки голосовых команд и генерации естественной речи. Компания утверждает, что Nova Sonic не только достигает уровня, сопоставимого с передовыми разработками OpenAI и Google, но и является «самой экономически эффективной» голосовой ИИ-моделью на рынке, предлагая экономию до 80% по сравнению с GPT-4o от OpenAI.

Nova Sonic позиционируется как прямой конкурент новейшим голосовым моделям, таким как технология, лежащая в основе Voice Mode в ChatGPT. В отличие от устаревших цифровых помощников, таких как Alexa и Siri, которые часто звучат неестественно и скованно, Nova Sonic обещает более плавное и интуитивное взаимодействие.

Технология уже доступна через Bedrock, платформу Amazon для разработки корпоративных ИИ-приложений, использующую двунаправленный потоковый API. Это открывает широкие возможности для интеграции Nova Sonic в различные бизнес-процессы и приложения.

Что делает Nova Sonic особенной?

По словам старшего вице-президента и главного научного сотрудника Amazon по AGI, Рохита Прасада, Nova Sonic опирается на многолетний опыт Amazon в создании "крупных оркестровых систем", лежащих в основе Alexa. Это позволяет модели эффективно маршрутизировать запросы пользователей к различным API, "понимая", когда необходимо получить информацию из интернета в режиме реального времени, обработать проприетарный источник данных или выполнить действие во внешнем приложении.

Ключевые преимущества Nova Sonic:

Интеллектуальная маршрутизация запросов: Модель способна определять, какой инструмент или API необходим для выполнения конкретной задачи, обеспечивая более точные и релевантные ответы.

  • Естественная речь: Nova Sonic говорит "в подходящий момент", учитывая паузы и прерывания собеседника, что делает взаимодействие более естественным и комфортным.
  • Текстовая расшифровка: Система генерирует текстовую расшифровку речи пользователя, которую разработчики могут использовать для различных приложений, например, для анализа настроений или создания субтитров.
  • Высокая точность распознавания речи: Nova Sonic демонстрирует впечатляющие результаты в тестах на распознавание речи, значительно превосходя конкурентов.

Рекордная точность и скорость

По данным Amazon, Nova Sonic достигла показателя ошибок распознавания слов (WER) всего 4,2% в среднем для английского, французского, итальянского, немецкого и испанского языков в многоязычном тесте Multilingual LibriSpeech.

В тесте на шумные взаимодействия с несколькими участниками (Augmented Multi Party Interaction) Nova Sonic оказалась на 46,7% точнее в плане WER, чем модель GPT-4o-transcribe от OpenAI.

Кроме того, Amazon утверждает, что Nova Sonic обладает лидирующей в отрасли скоростью, со средней воспринимаемой задержкой 1,09 секунды, что делает её быстрее модели GPT-4o, использующейся в Realtime API от OpenAI (1,18 секунды).

Alexa+ получает обновление

Рохит Прасад также сообщил, что компоненты Nova Sonic уже работают в обновлённом цифровом голосовом помощнике Alexa+. Это означает, что пользователи Alexa+ смогут оценить преимущества новой технологии, получив более точные, быстрые и естественные ответы.

Вывод

Amazon Nova Sonic представляет собой значительный прорыв в области голосового ИИ

Благодаря рекордной точности распознавания речи, экономичной цене и интеллектуальной маршрутизации запросов, Nova Sonic имеет потенциал изменить способ взаимодействия людей с технологиями. Внедрение Nova Sonic в Alexa+ и доступность через Bedrock открывают широкие возможности для разработчиков и предприятий, стремящихся использовать передовые голосовые возможности в своих приложениях и сервисах. Конкуренция в сфере голосового ИИ обостряется, и Nova Sonic от Amazon, безусловно, является серьезным игроком, способным потеснить лидеров рынка. Остается наблюдать, как OpenAI и Google отреагируют на этот вызов и какие инновации они предложат в будущем. Одно можно сказать наверняка: будущее голосового взаимодействия обещает быть захватывающим.