Google представила Gemini 2.5 Flash Native Audio – новую модель для голосовых агентов, превзошедшую OpenAI gpt-realtime в сложном тесте функциональных вызовов. В тесте ComplexFuncBench Audio, оценивающем способность модели к многошаговым задачам, Gemini 2.5 Flash Native Audio показала результат 71,5% против 66,5% у gpt-realtime. Google также сообщает о повышении точности следования инструкциям разработчика до 90% (ранее 84%) и улучшении удержания контекста в диалогах. Модель демонстрирует более глубокое понимание необходимости использования внешних функций и органично интегрирует результаты в разговор. Новая модель уже интегрирована в голосовой режим приложений Gemini и Search Live, где Google впервые использует нативное аудио вместо традиционной цепочки «распознавание → LLM → синтез». Gemini 2.5 Flash Native Audio доступна разработчикам в Google AI Studio, Vertex AI (GA) и Gemini API (в режиме предварительного просмотра). United Wholesale Mortgage, крупный ипотечный брокер в США, явля
Gemini 2.5 Flash: Google обходит OpenAI в гонке голосовых ИИ
13 декабря 202513 дек 2025
1
1 мин