Раньше синтез речи звучал как диктор на похоронах — монотонно, без паузы, без эмоций. Google выпустила Gemini 3.1 Flash TTS, и теперь ты буквально можешь прописать голосу команду «[взволнованно]» — и он будет взволнован. 15 апреля Google представила новое поколение своей модели для синтеза речи. Это не очередное «чуть лучше звучит» — здесь появилась принципиально другая механика управления голосом. Главная фишка — аудиотеги. Это команды в квадратных скобках, которые ты вставляешь прямо в текст. Хочешь, чтобы диктор сделал паузу — пишешь [пауза]. Нужна напряжённость — [напряжённо]. Хочешь, чтобы следующая реплика прозвучала с иронией — ну, ты понял. Доступно больше 200 таких тегов: эмоции, темп, акцент, стиль подачи. Для сравнения: раньше, чтобы добиться чего-то похожего, нужно было перегенерировать аудио десять раз, скрещивая пальцы. Теперь — просто пишешь режиссёрскую ремарку в тексте. Если ты делаешь контент — любой: подкасты, обучающие видео, озвучку для роликов, аудиокниги — это бу
ИИ-озвучка текстов стала управляемой: что умеет новый Gemini 3.1 Flash TTS
18 апреля18 апр
5
3 мин