Добавить в корзинуПозвонить
Найти в Дзене
Нейрозона сегодня

Gemini 2.5 Flash: Google обходит OpenAI в гонке голосовых ИИ

Google представила Gemini 2.5 Flash Native Audio – новую модель для голосовых агентов, превзошедшую OpenAI gpt-realtime в сложном тесте функциональных вызовов. В тесте ComplexFuncBench Audio, оценивающем способность модели к многошаговым задачам, Gemini 2.5 Flash Native Audio показала результат 71,5% против 66,5% у gpt-realtime. Google также сообщает о повышении точности следования инструкциям разработчика до 90% (ранее 84%) и улучшении удержания контекста в диалогах. Модель демонстрирует более глубокое понимание необходимости использования внешних функций и органично интегрирует результаты в разговор. Новая модель уже интегрирована в голосовой режим приложений Gemini и Search Live, где Google впервые использует нативное аудио вместо традиционной цепочки «распознавание → LLM → синтез». Gemini 2.5 Flash Native Audio доступна разработчикам в Google AI Studio, Vertex AI (GA) и Gemini API (в режиме предварительного просмотра). United Wholesale Mortgage, крупный ипотечный брокер в США, явля

Google представила Gemini 2.5 Flash Native Audio – новую модель для голосовых агентов, превзошедшую OpenAI gpt-realtime в сложном тесте функциональных вызовов.

В тесте ComplexFuncBench Audio, оценивающем способность модели к многошаговым задачам, Gemini 2.5 Flash Native Audio показала результат 71,5% против 66,5% у gpt-realtime. Google также сообщает о повышении точности следования инструкциям разработчика до 90% (ранее 84%) и улучшении удержания контекста в диалогах. Модель демонстрирует более глубокое понимание необходимости использования внешних функций и органично интегрирует результаты в разговор.

Новая модель уже интегрирована в голосовой режим приложений Gemini и Search Live, где Google впервые использует нативное аудио вместо традиционной цепочки «распознавание → LLM → синтез». Gemini 2.5 Flash Native Audio доступна разработчикам в Google AI Studio, Vertex AI (GA) и Gemini API (в режиме предварительного просмотра).

United Wholesale Mortgage, крупный ипотечный брокер в США, является одним из первых клиентов. По словам технического директора Джейсона Бресслера, голосовой ассистент Mia на базе Gemini помог оформить более 14 000 кредитов с момента запуска в мае 2025 года. Shopify отмечает, что пользователи их голосового помощника Sidekick перестают осознавать, что общаются с искусственным интеллектом уже через минуту.

Параллельно с обновлением голосовой модели Google запустила бета-версию синхронного перевода речи в Google Translate. Функция, работающая с любыми наушниками и поддерживающая более 70 языков в 2000 комбинациях, сохраняет интонацию и тембр говорящего. Доступны режимы непрерывного прослушивания и двустороннего разговора. Бета-версия пока доступна на Android в США, Мексике и Индии, а для iOS и других регионов планируется выпуск в 2026 году.