Найти в Дзене
Роман Тимошенко

🎙️ Какую нейросеть выбрать для клонирования голосов? Мой путь между простотой и качеством. Часть №2

ссылка на предыдущие рассуждения. Часть №1-Введение После того, как я загорелся идеей оживлять текст голосами известных людей, встал вопрос — на чём это вообще делать? Технологий много, но не все одинаково удобны. Я провёл пару дней в поиске и вот к каким выводам пришёл. Сразу скажу: Bark — это безумно интересный проект, но пока не для практического использования. Модель клёвая для экспериментов, творчества и генерации, но не подходит под задачу, где нужно качество, стабильность и узнаваемый голос. На старте решаюсь идти по пути наименьшего сопротивления: ✅ Начинаю с OpenVoice. Это даёт мне возможность быстро получить работающий результат, протестировать идею и убедиться, что синтез реально звучит как «тот самый» голос. Если окажется, что у OpenVoice качество недостаточное, или не хватает гибкости, то я уже подготовлен: Я покажу, как именно запустил OpenVoice у себя на Windows, что получилось, как звучит клонированный голос и с какими проблемами столкнулся. 📢 Продолжение следует…
Оглавление

ссылка на предыдущие рассуждения. Часть №1-Введение

После того, как я загорелся идеей оживлять текст голосами известных людей, встал вопрос — на чём это вообще делать?

Технологий много, но не все одинаково удобны. Я провёл пару дней в поиске и вот к каким выводам пришёл.

🤔 На старте было три кандидата:

  1. OpenVoice (MyShell AI) — свежая модель, простая в использовании, поддерживает эмоции и русский язык.
  2. Coqui TTS — мощная open-source платформа с возможностью глубокого обучения и кастомизации.
  3. Bark от Suno AI — необычная, креативная модель, которая генерирует не только голос, но и сопутствующие шумы, интонации, иногда даже дыхание и музыкальный фон.

❌ Почему я сразу отложил Bark

Сразу скажу: Bark — это безумно интересный проект, но пока не для практического использования.

Минусы:

  • 🐢 Медленная генерация, даже на мощных GPU (генерирует речь блоками, с паузами)
  • 🎲 Иногда результат слишком хаотичный — может вставить шум, музыку, непредсказуемую интонацию
  • 📥 Неудобна для клонирования конкретного голоса: обучить под себя сложно
  • 📦 Нет лёгкого API или командной строки для интеграции в бота

Модель клёвая для экспериментов, творчества и генерации, но не подходит под задачу, где нужно качество, стабильность и узнаваемый голос.

🥊 Осталось два кандидата: OpenVoice и Coqui TTS

🎯 OpenVoice:

  • Быстро стартует
  • Клонирует голос по 1–5 минутам
  • Поддерживает русский язык и эмоции
  • Простой API, легко прикрутить к Telegram-боту

🛠 Coqui TTS:

  • Полный контроль, можно обучать с нуля
  • Поддержка десятков моделей (Tacotron2, VITS и др.)
  • Русский язык — поддерживается, но нужно возиться с выбором модели
  • Требует много времени на подготовку.

🧩 Что я решил?

На старте решаюсь идти по пути наименьшего сопротивления:

Начинаю с OpenVoice.

Это даёт мне возможность быстро получить работающий результат, протестировать идею и убедиться, что синтез реально звучит как «тот самый» голос.

🤞 Если качество не устроит — пойдём сложным путём

Если окажется, что у OpenVoice качество недостаточное, или не хватает гибкости, то я уже подготовлен:

  • Есть план, как перейти на Coqui TTS, сложно, долго, но качество может быть лучше. Проверим!

📌 В следующей статье

Я покажу, как именно запустил OpenVoice у себя на Windows, что получилось, как звучит клонированный голос и с какими проблемами столкнулся.

📢 Продолжение следует…