18 подписчиков

Новая версия Google Gemini стала звучать «по‑человечески»

8 апреля8 апр

~1 мин

Google представила нейросетевую модель Gemini 3.1 Flash Live для синтеза речи. По словам разработчиков, она делает голос максимально реалистичным — людям будет сложнее понять, что они общаются с роботом. Модель быстрее предшественницы отвечает на вопросы, лучше работает с неанглийскими языками и дольше сохраняет нить диалога благодаря увеличенному контекстному окну. В бенчмарке Big Bench Audio нейросеть лидирует: она озвучила ответы на 1 000 вопросов. В Scale AI Audio MultiChallenge она показала результат 36,1 % (средние показатели других ботов — 50 %): этот тест оценивает работу с помехами и прерываниями в диалоге. Для проверки подлинности аудиодорожки используется метка SynthID. Функции Gemini 3.1 Flash Live вскоре появятся в Gemini Live и Search Live. Разработчики смогут воспользоваться моделью через AI Studio, API Gemini и Gemini Enterprise for Customer Experience.

Модель быстрее предшественницы отвечает на вопросы, лучше работает с неанглийскими языками и дольше сохраняет нить диалога благодаря увеличенному контекстному окну.

В бенчмарке Big Bench Audio нейросеть лидирует: она озвучила ответы на 1 000 вопросов. В Scale AI Audio MultiChallenge она показала результат 36,1 % (средние показатели других ботов — 50 %): этот тест оценивает работу с помехами и прерываниями в диалоге.

Для проверки подлинности аудиодорожки используется метка SynthID.

Функции Gemini 3.1 Flash Live вскоре появятся в Gemini Live и Search Live. Разработчики смогут воспользоваться моделью через AI Studio, API Gemini и Gemini Enterprise for Customer Experience.