Google выпустил Gemini 3.1 Flash Live — модель для создания голосовых ИИ-агентов с минимальной задержкой. Разбираюсь, что это значит для разработчиков и почему это важно. Google выпустил новую модель — Gemini 3.1 Flash Live — и сделал её доступной через Live API в Google AI Studio. Если коротко: теперь можно строить голосовых ИИ-агентов, которые реагируют в реальном времени. Анонс от Google AI Studio — тут: https://x.com/googleaistudio/status/2037190639021154820 Live API работает через WebSocket-соединение и принимает на вход аудио, изображения и текст одновременно. На выходе — голосовой ответ с минимальной задержкой. Модель понимает тон, интонацию и намерение собеседника, поддерживает 70 языков и позволяет пользователю перебивать — как в живом разговоре. Из интересного: есть так называемый affective dialog (адаптивный диалог) — модель подстраивает стиль ответа под эмоциональный тон собеседника. Плюс встроенная поддержка инструментов: function calling и Google Search прямо внутри голос
Google запустил Gemini 3.1 Flash Live — и это первый серьёзный шаг к голосовым ИИ-агентам в реальном времени
СегодняСегодня
1 мин