811 подписчиков

Нейросеть для клонирования голоса: как создать свой AI-голос в 2026 году

17 июня17 июн

4 мин

В январе 2026 года Alibaba открыла исходный код Qwen3-TTS — модели, которая клонирует голос из нескольких секунд записи. А чуть раньше исследователи зафиксировали: технология пересекла «порог неразличимости» — человек больше не отличает AI-голос от живого на слух. Это уже не эксперимент, а полноценный инструмент. Разбираю четыре способа создать свой AI-голос в 2026 году — от простого к сложному. Прежде чем переходить к инструментам — важно понять разницу в подходах. Instant cloning (Zero-shot): модель слышит 30–60 секунд вашего голоса и сразу умеет им говорить. Быстро, достаточно хорошо. Так работает ElevenLabs Instant Voice Cloning и Qwen3-TTS. Fine-tuning: модель дополнительно обучается на часах вашей записи. Голос получается точнее, стабильнее. Это ElevenLabs Professional — платно, зарубежная карта нужна. Voice Conversion (RVC): берёте аудиофайл с любым голосом — RVC преобразует его в ваш. Работает локально, без интернета. Полностью бесплатно. Для большинства задач контентмейкера до

Оглавление

Как работает клонирование голоса
ElevenLabs: мировой стандарт через обходной канал
RVC: бесплатно и без лимитов на своём ПК

Разбираю четыре способа создать свой AI-голос в 2026 году — от простого к сложному.

Как работает клонирование голоса

Прежде чем переходить к инструментам — важно понять разницу в подходах.

Instant cloning (Zero-shot): модель слышит 30–60 секунд вашего голоса и сразу умеет им говорить. Быстро, достаточно хорошо. Так работает ElevenLabs Instant Voice Cloning и Qwen3-TTS.

Fine-tuning: модель дополнительно обучается на часах вашей записи. Голос получается точнее, стабильнее. Это ElevenLabs Professional — платно, зарубежная карта нужна.

Voice Conversion (RVC): берёте аудиофайл с любым голосом — RVC преобразует его в ваш. Работает локально, без интернета. Полностью бесплатно.

Для большинства задач контентмейкера достаточно Zero-shot. Fine-tuning нужен, если голос — часть вашего бренда и качество критично.

ElevenLabs: мировой стандарт через обходной канал

Самый популярный сервис для голоса. Из России работает только через обходной канал — прямой доступ закрыт.

Что бесплатно: 10 000 символов в месяц (~7–10 минут аудио), Instant Voice Cloning, до 3 голосов. Без коммерческой лицензии.

Как создать голосовую модель:

Зайдите на elevenlabs.io через прокси, зарегистрируйтесь
Откройте Voice Lab → Add Voice → Instant Voice Cloning
Запишите или загрузите 30–60 секунд своего голоса (.wav или .mp3)
Назовите голос → Submit — модель готова за 1–2 минуты
Speech Synthesis: выберите свой голос, введите текст → Generate

Плюс: проще некуда, качество отличное, русский поддерживается хорошо. Минус: 10 000 символов заканчиваются быстро. Для монетизации нужен Starter ($5/мес, только зарубежная карта).

💡 Совет. Лучше использовать разнообразные фразы для записи образца — разные интонации, темп, вопросы и утверждения. Монотонный монолог даёт менее выразительный клон.

RVC: бесплатно и без лимитов на своём ПК

RVC (Retrieval-based Voice Conversion) — open-source проект, который работает полностью локально. Репозиторий на GitHub открывается из России без ограничений.

Принцип другой, чем у ElevenLabs: RVC не читает текст напрямую вашим голосом. Вы берёте аудиофайл с чужим голосом (например, синтез от Алисы или Гигачата) и конвертируете его в ваш голос. На выходе — речь вашим голосом.

Что нужно: Windows с NVIDIA GPU (RTX 2060+), готовая сборка RVC1006Nvidia (Hugging Face), 5–30 минут записи своего голоса.

Установка занимает 30–60 минут. После — никаких ограничений: генерируйте сколько угодно, офлайн, данные никуда не уходят.

Это вариант для тех, кто готов потратить время на настройку ради полного контроля.

Qwen3-TTS: свежий open-source с клонированием

Alibaba открыла Qwen3-TTS в январе 2026 — сразу с открытым исходным кодом. Основные характеристики:

Клонирует голос из секунд записи (Zero-shot)
Поддерживает 10+ языков, русский включён
Размер модели 1.7B — запускается на ноутбуке с GPU
По данным пользователей, интерфейс chat.qwen.ai открывается из России (официально не верифицировалось)

Для быстрого теста: fal.ai/models/fal-ai/qwen-3-tts — загружаете образец голоса, получаете синтез. Бесплатный лимит для тестирования есть. Модель также можно скачать и запустить локально через Python.

Хорошая альтернатива ElevenLabs без подписки и без серверных ограничений.

💡 Совет. Для озвучки на русском без клонирования — Алиса или Гигачат от Сбера работают с прямым доступом из России. Используйте их как источник аудио, который потом переводите в свой голос через RVC.

Юридическая сторона

В 2026 году технология обгоняет право, но базовые правила уже сложились.

В России нет специального закона о голосовых дипфейках, но действуют общие нормы: клонирование чужого голоса без согласия нарушает право на неприкосновенность частной жизни (ст. 152.2 ГК РФ). Использование в мошенничестве — отдельный состав и тяжкое преступление. Мы всячески осуждаем голосовые дипфейки и прочие нарушения закона.

Крупные платформы — YouTube, Spotify — ведут базы защищённых голосов: попытка клонировать голос известного исполнителя через ElevenLabs будет заблокирована автоматически.

В ЕС с 2025 года обязательна маркировка AI-generated аудио. В России это пока рекомендация, но практика складывается.

Как выбрать инструмент

Хочется быстро и просто — ElevenLabs (через обходной канал, 10 000 символов бесплатно, результат за 5 минут).

Хочется из России без посредников — Qwen3-TTS (по данным пользователей открывается, open-source, можно локально).

Нужен неограниченный объём — RVC (бесплатно, локально, нужен GPU и час на настройку).

Нужен голос для TTS без клонирования — Алиса или Гигачат от Сбера: прямой доступ, хорошее русскоязычное произношение, бесплатно.

👉 Подпишитесь на этот канал, чтобы получать актуальную информацию о полезных бесплатных нейросетях!

Гаджеты и электроника

5,73 млн интересуются