2227 подписчиков

Gemini Speech — новый король озвучки? Почему ElevenLabs стоит напрячься

29 мая 202529 мая 2025

128

1 мин

Пока все гоняются за Midjourney и ChatGPT, Google тихо выкатил зверя. Новая нейросеть Gemini Speech Generation — это не просто генератор голоса. Это полноценный актёр за кадром, который умеет плакать, смеяться и ругаться в диалоге, и всё это — бесплатно, прямо сейчас. Gemini Speech — это модуль в AI Studio от Google, который: ✅ Работает фраза: говорит и смеётся: Я не хотела ехать в этот парк! ✅ Диалоги звучат реалистично Пример: – Ты был лучшим другом, Степан... Но я выбрала Дениса. – Ну и иди ты в пень, Лариса! ✅ Контекстное окно — до 32 000 токенов! Можно озвучить целую главу книги ❌ Иногда не срабатывают “всхлипы”, “плач”, “злоба” — требует экспериментов ❌ Нет voice cloning и фильтров, как у Eleven или Minimax ❌ Большие тексты могут “ломаться” — лучше делить на куски Gemini Speech — это реально мощнейший инструмент для озвучки, особенно на русском. Он даёт контроль, эмоции, и диалоги, а не просто сухой голос. И пока он бесплатный — глупо этим не пользоваться. Если вам по

Оглавление

🎤 Что это такое?
🚀 Почему это лучше, чем ElevenLabs?
🔧 Как пользоваться (пошагово)

Пока все гоняются за Midjourney и ChatGPT, Google тихо выкатил зверя.

Новая нейросеть Gemini Speech Generation — это не просто генератор голоса.

Это полноценный актёр за кадром, который умеет плакать, смеяться и ругаться в диалоге, и всё это — бесплатно, прямо сейчас.

🎤 Что это такое?

Gemini Speech — это модуль в AI Studio от Google, который:

генерирует одноголосую озвучку и диалоги
позволяет управлять эмоциями, интонацией и темпераментом
поддерживает 30+ голосов, включая реалистичные русские
работает без сложных настроек: интерфейс минималистичный

🚀 Почему это лучше, чем ElevenLabs?

Управление эмоциями прямо в тексте
Пример: добавляешь “говорит и плачет:” — и голос реально звучит, как будто человек плачет.
Мультиспикер режим — можно задать 2 голоса, и они переговариваются как в сцене
Работает на русском языке почти идеально
Да, даже лучше, чем ElevenLabs в некоторых кейсах
Бесплатно. Пока.
Это пока эксперимент в AI Studio — но звучит, как премиум.

🔧 Как пользоваться (пошагово)

Открываешь Google AI Studio
В разделе "Generate Media" выбираешь Gemini Speech Generation
Выбираешь модель:

Gemini Flash (отзывчивее к командам, эмоции работают лучше)
Gemini Pro Preview (мощнее, но может "проглатывать" фразы)

Настраиваешь:

Один голос или диалог
Температуру (от сдержанного до креативного)
Голос (30 опций: зрелый, лёгкий, агрессивный и т.д.)

Вводишь текст → добавляешь эмоции → слушаешь → кайфуешь

🧠 Фишки и баги

✅ Работает фраза:

говорит и смеётся: Я не хотела ехать в этот парк!

✅ Диалоги звучат реалистично

Пример:

– Ты был лучшим другом, Степан... Но я выбрала Дениса.

– Ну и иди ты в пень, Лариса!

✅ Контекстное окно — до 32 000 токенов!

Можно озвучить целую главу книги

❌ Иногда не срабатывают “всхлипы”, “плач”, “злоба” — требует экспериментов

❌ Нет voice cloning и фильтров, как у Eleven или Minimax

❌ Большие тексты могут “ломаться” — лучше делить на куски

💡 Вывод

Gemini Speech — это реально мощнейший инструмент для озвучки, особенно на русском.

Он даёт контроль, эмоции, и диалоги, а не просто сухой голос.

И пока он бесплатный — глупо этим не пользоваться.

Если вам понравился этот обзор, поддержите нас подпиской на канал. Здесь вас ждёт еще больше интересного контента!