96 подписчиков

Google запустил Gemini 3.1 Flash Live — и это первый серьёзный шаг к голосовым ИИ-агентам в реальном времени

СегодняСегодня

1 мин

Google выпустил Gemini 3.1 Flash Live — модель для создания голосовых ИИ-агентов с минимальной задержкой. Разбираюсь, что это значит для разработчиков и почему это важно. Google выпустил новую модель — Gemini 3.1 Flash Live — и сделал её доступной через Live API в Google AI Studio. Если коротко: теперь можно строить голосовых ИИ-агентов, которые реагируют в реальном времени. Анонс от Google AI Studio — тут: https://x.com/googleaistudio/status/2037190639021154820 Live API работает через WebSocket-соединение и принимает на вход аудио, изображения и текст одновременно. На выходе — голосовой ответ с минимальной задержкой. Модель понимает тон, интонацию и намерение собеседника, поддерживает 70 языков и позволяет пользователю перебивать — как в живом разговоре. Из интересного: есть так называемый affective dialog (адаптивный диалог) — модель подстраивает стиль ответа под эмоциональный тон собеседника. Плюс встроенная поддержка инструментов: function calling и Google Search прямо внутри голос

Оглавление

Что под капотом
Зачем это нужно
Что с экосистемой

Google выпустил Gemini 3.1 Flash Live — модель для создания голосовых ИИ-агентов с минимальной задержкой. Разбираюсь, что это значит для разработчиков и почему это важно.

Google выпустил новую модель — Gemini 3.1 Flash Live — и сделал её доступной через Live API в Google AI Studio. Если коротко: теперь можно строить голосовых ИИ-агентов, которые реагируют в реальном времени.

Анонс от Google AI Studio — тут: https://x.com/googleaistudio/status/2037190639021154820

Что под капотом

Live API работает через WebSocket-соединение и принимает на вход аудио, изображения и текст одновременно. На выходе — голосовой ответ с минимальной задержкой. Модель понимает тон, интонацию и намерение собеседника, поддерживает 70 языков и позволяет пользователю перебивать — как в живом разговоре.

Из интересного: есть так называемый affective dialog (адаптивный диалог) — модель подстраивает стиль ответа под эмоциональный тон собеседника. Плюс встроенная поддержка инструментов: function calling и Google Search прямо внутри голосового диалога.

Зачем это нужно

Голосовые агенты — это не про замену чат-ботов. Это про новый тип интерфейсов: ассистенты для поддержки клиентов, обучающие боты, NPC в играх, голосовые помощники в робототехнике. Там, где задержка в полсекунды ломает весь пользовательский опыт, Live API решает проблему на уровне протокола.

Google предлагает два подхода к интеграции: server-to-server (ваш бэкенд проксирует потоки) и client-to-server (фронтенд подключается напрямую через WebSocket). Для продакшена рекомендуют второй вариант с ephemeral tokens — так и быстрее, и безопаснее.

Что с экосистемой

Уже готовы интеграции с LiveKit, Pipecat, Fishjam, Voximplant и Firebase AI SDK. То есть подключить Live API к существующей инфраструктуре можно без написания WebSocket-обёртки с нуля.

Документация и примеры — на странице Live API.

По теме

Если вы строите голосовые интерфейсы или думаете о real-time взаимодействии с ИИ в своих продуктах — давайте обсудим, как это вписать в вашу архитектуру.

Читать на сайте pimenov.ai