55 подписчиков

Google представил Gemini 3.5 Live Translate - аудиомодель для синхронного голосового перевода в реальном времени

ВчераВчера

1 мин

Gemini 3.5 Live Translate обеспечивает near real-time речевой перевод более чем на 70 языках.

По заявлению разработчиков, технология должна сделать многоязычное общение настолько же естественным, как разговор с человеком на родном языке.

☝🏻☝🏻Главное отличие от привычных переводчиков — отказ от пословной схемы «сказал — подождал — получил ответ».

Большинство старых систем работают по принципу turn-by-turn: вы говорите, останавливаетесь, приложение обрабатывает аудио, переводит текст и зачитывает его обратно.

Gemini 3.5 Live Translate вместо этого обрабатывает речь по мере её поступления потоком, оставаясь буквально на несколько секунд позади говорящего и балансируя между задержкой ради контекста и скоростью ради синхронности.

☝🏻☝🏻Модель автоматически определяет более 70 языков и генерирует плавную, естественно звучащую переведённую речь, которая сохраняет интонацию, темп и высоту голоса говорящего.

То есть если человек говорит с воодушевлением, перевод передаст ту же энерги

Gemini 3.5 Live Translate обеспечивает near real-time речевой перевод более чем на 70 языках.

То есть если человек говорит с воодушевлением, перевод передаст ту же энерги

Gemini 3.5 Live Translate обеспечивает near real-time речевой перевод более чем на 70 языках.

По заявлению разработчиков, технология должна сделать многоязычное общение настолько же естественным, как разговор с человеком на родном языке.

☝🏻☝🏻Главное отличие от привычных переводчиков — отказ от пословной схемы «сказал — подождал — получил ответ».

Большинство старых систем работают по принципу turn-by-turn: вы говорите, останавливаетесь, приложение обрабатывает аудио, переводит текст и зачитывает его обратно.

Gemini 3.5 Live Translate вместо этого обрабатывает речь по мере её поступления потоком, оставаясь буквально на несколько секунд позади говорящего и балансируя между задержкой ради контекста и скоростью ради синхронности.

☝🏻☝🏻Модель автоматически определяет более 70 языков и генерирует плавную, естественно звучащую переведённую речь, которая сохраняет интонацию, темп и высоту голоса говорящего.

То есть если человек говорит с воодушевлением, перевод передаст ту же энергию, а не выдаст монотонный синтетический голос.

Дополнительно модель устойчива к шуму, что делает её пригодной для звонков в поддержку, классов, поездок в такси и живых мероприятий.💬

🔻Развёртывание идёт сразу на нескольких платформах.

Для разработчиков модель доступна в публичном превью через Gemini Live API и Google AI Studio; для бизнеса — в закрытом превью в Google Meet начиная с этого месяца; для всех пользователей — в приложении Google Translate на Android и iOS.

Идентификатор модели для разработчиков — gemini-3.5-live-translate-preview.

Отдельный акцент Google делает на безопасности: всё аудио, сгенерированное моделью, помечается невидимым водяным знаком SynthID, который встроен прямо в звуковую дорожку, чтобы ИИ-контент оставался распознаваемым и не использовался для дезинформации.