Найти в Дзене
Роман Тимошенко

🎙️ Озвучка голосом Путина, Дудя и Урганта? Я решил повторить это сам

Недавно наткнулся на один безумно интересный стартап — бот в Telegram, который умеет озвучивать текст голосами знаменитостей. Причём делает это настолько реалистично, что иногда не сразу понимаешь, где синтез, а где оригинал. Ты пишешь что-то вроде: "С добрым утром, товарищи!"
А бот отвечает тебе голосом Путина. Или Дудя. Или Урганта. Или кем захочешь. Оказалось, за этим стоит нейросетевая технология клонирования голоса. Модель обучается на голосе конкретного человека, а потом синтезирует любые фразы с его интонацией, тембром и ритмом. Я был настолько впечатлён, что решил: а почему бы не повторить самому? Сейчас существует несколько нейросетей, которые поддерживают русскую речь и позволяют синтезировать фразы с любым голосом: Здесь всё просто — YouTube и подкасты. Интервью, обращения, стендапы — всё подходит. Главное, чтобы: Можно использовать yt-dlp и ffmpeg, чтобы скачать и обработать аудио, а затем whisper от OpenAI для автоматической расшифровки речи. План простой: 💡 Уже даже на
Оглавление

Недавно наткнулся на один безумно интересный стартап — бот в Telegram, который умеет озвучивать текст голосами знаменитостей. Причём делает это настолько реалистично, что иногда не сразу понимаешь, где синтез, а где оригинал.

Ты пишешь что-то вроде:

"С добрым утром, товарищи!"

А бот отвечает тебе голосом Путина. Или Дудя. Или Урганта. Или кем захочешь.

🤯 Как такое возможно?

Оказалось, за этим стоит нейросетевая технология клонирования голоса. Модель обучается на голосе конкретного человека, а потом синтезирует любые фразы с его интонацией, тембром и ритмом.

Я был настолько впечатлён, что решил: а почему бы не повторить самому?

🔍 Начал копать, и вот что выяснил:

✅ Да, это реально. И даже с русским языком.

Сейчас существует несколько нейросетей, которые поддерживают русскую речь и позволяют синтезировать фразы с любым голосом:

🥇 OpenVoice

  • Поддержка русского языка
  • Круто имитирует эмоции, интонации, акценты
  • Клонирует голос по 1–5 минутам записи
  • Работает на GPU — и у меня RTX 3080 Ti, так что всё совпало!

🥈 Bark от Suno

  • Поддержка русского, яркое и эмоциональное озвучивание
  • Есть предобученная модель, можно не тренировать с нуля
  • Минус — очень медленный, не для продакшна

🥉 Coqui TTS

  • Гибкая система, можно обучить свою модель
  • Тоже поддерживает русский язык
  • Чуть сложнее в запуске, но зато open-source

🎧 А где брать голоса знаменитостей?

Здесь всё просто — YouTube и подкасты. Интервью, обращения, стендапы — всё подходит.

Главное, чтобы:

  • Голос был чистым и без музыки
  • Было хотя бы 10 минут нормальной речи
  • И желательно с разными интонациями

Можно использовать yt-dlp и ffmpeg, чтобы скачать и обработать аудио, а затем whisper от OpenAI для автоматической расшифровки речи.

🧩 Идея родилась: сделать бота в Telegram

План простой:

  1. Клонировать голос известного человека (или нескольких)
  2. Подключить нейросеть к Python-боту
  3. Давать пользователю возможность вводить текст → получать голосовое

💡 Уже даже наметил, с чьим голосом будет первая версия…

(Подсказка: он в телевизоре чаще, чем реклама «Турции от 45 000 рублей»).

🔜 Что дальше?

В следующих статьях расскажу:

  • Какую из моделей я выбрал
  • Где взял голосовые исходники
  • Как проходило обучение
  • Какие подводные камни и препятствия
  • И что в итоге получилось — покажу примеры озвучки

🎬 Продолжение следует…

Подпишись, если интересно посмотреть, как звучит текст, прочитанный голосом Путина, Инстасамки (да простят меня за это), Урганта или Дудя, но с твоими словами.

Скоро покажу!