Добавить в корзинуПозвонить
Найти в Дзене

ИИ-озвучка текстов стала управляемой: что умеет новый Gemini 3.1 Flash TTS

Раньше синтез речи звучал как диктор на похоронах — монотонно, без паузы, без эмоций. Google выпустила Gemini 3.1 Flash TTS, и теперь ты буквально можешь прописать голосу команду «[взволнованно]» — и он будет взволнован. 15 апреля Google представила новое поколение своей модели для синтеза речи. Это не очередное «чуть лучше звучит» — здесь появилась принципиально другая механика управления голосом. Главная фишка — аудиотеги. Это команды в квадратных скобках, которые ты вставляешь прямо в текст. Хочешь, чтобы диктор сделал паузу — пишешь [пауза]. Нужна напряжённость — [напряжённо]. Хочешь, чтобы следующая реплика прозвучала с иронией — ну, ты понял. Доступно больше 200 таких тегов: эмоции, темп, акцент, стиль подачи. Для сравнения: раньше, чтобы добиться чего-то похожего, нужно было перегенерировать аудио десять раз, скрещивая пальцы. Теперь — просто пишешь режиссёрскую ремарку в тексте. Если ты делаешь контент — любой: подкасты, обучающие видео, озвучку для роликов, аудиокниги — это бу
Оглавление

Раньше синтез речи звучал как диктор на похоронах — монотонно, без паузы, без эмоций. Google выпустила Gemini 3.1 Flash TTS, и теперь ты буквально можешь прописать голосу команду «[взволнованно]» — и он будет взволнован.

Что вообще происходит

15 апреля Google представила новое поколение своей модели для синтеза речи. Это не очередное «чуть лучше звучит» — здесь появилась принципиально другая механика управления голосом.

Главная фишка — аудиотеги. Это команды в квадратных скобках, которые ты вставляешь прямо в текст. Хочешь, чтобы диктор сделал паузу — пишешь [пауза]. Нужна напряжённость — [напряжённо]. Хочешь, чтобы следующая реплика прозвучала с иронией — ну, ты понял. Доступно больше 200 таких тегов: эмоции, темп, акцент, стиль подачи.

Для сравнения: раньше, чтобы добиться чего-то похожего, нужно было перегенерировать аудио десять раз, скрещивая пальцы. Теперь — просто пишешь режиссёрскую ремарку в тексте.

Кому это реально нужно

Если ты делаешь контент — любой: подкасты, обучающие видео, озвучку для роликов, аудиокниги — это буквально то, чего не хватало.

Представь: ты пишешь сценарий для корпоративного обучения. Два персонажа. Один уверенный, другой немного нервничает. Раньше тебе нужно было либо нанимать актёров, либо мириться с тем, что оба звучат как один и тот же робот с разными именами. Теперь модель поддерживает многоголосый режим нативно — разные персонажи в одном запросе, и каждый звучит по-своему на протяжении всего диалога.

70+ языков, 30 встроенных голосов. Русского в списке официально пока нет, зато есть ещё 70 — так что для международных проектов это закрывает очень много.

Почему это важно прямо сейчас

Рынок синтеза речи — один из самых горячих в ИИ прямо сейчас. ElevenLabs всё ещё держит первое место в независимых рейтингах, но Google буквально наступает на пятки: Gemini 3.1 Flash TTS занял второе место на крупнейшем бенчмарке по качеству озвучки — и это всего лишь предварительная версия.

Разница между ElevenLabs и Google — примерно как между специализированным ножом для суши и хорошим поварским ножом. ElevenLabs отлично клонирует голоса. Google берёт глубиной управления и масштабом: 200+ тегов, несколько языков в одном сеансе, нативный диалог.

И да — бесплатный доступ для экспериментов уже есть в Google AI Studio. Без кредитной карты.

Невидимая подпись

Один момент, который интересен вне зависимости от того, используешь ты эту штуку или нет.

Всё аудио, которое генерирует Gemini 3.1 Flash TTS, автоматически маркируется невидимым водяным знаком — SynthID. Его не слышно, но специальные инструменты могут определить: вот этот кусок звука сделала нейросеть Google.

Это не PR-заявление о безопасности для галочки. В мире, где ИИ-голоса всё активнее используются в скам-звонках и фейковых роликах — это инфраструктура для контроля. Причём незаметная для конечного слушателя.

Рано или поздно такая маркировка станет обязательной по закону. Google просто делает это первой.

Как попробовать

Самый простой путь — Google AI Studio. Открываешь, выбираешь раздел с генерацией медиа, выбираешь модель Gemini 3.1 Flash TTS и начинаешь экспериментировать. Никакого кода не нужно, есть удобный интерфейс с настройками голоса прямо в браузере.

Для тех, кто хочет встроить это в свои продукты — Gemini API, там же документация и примеры. Корпоративный вариант — Vertex AI. И отдельно Google интегрировала модель в Google Vids для пользователей Workspace.

Я помогаю бизнесу разобраться с ИИ-инструментами и внедрить нужное — без лишних подписок и экспериментов вслепую. Если интересно — пишите в телеграм.

Синтез речи долго был тем углом ИИ-рынка, куда смотрели вполглаза — ну озвучивает и озвучивает. Похоже, этот угол больше не тихий.