В январе 2026 года Alibaba открыла исходный код Qwen3-TTS — модели, которая клонирует голос из нескольких секунд записи. А чуть раньше исследователи зафиксировали: технология пересекла «порог неразличимости» — человек больше не отличает AI-голос от живого на слух. Это уже не эксперимент, а полноценный инструмент.
Разбираю четыре способа создать свой AI-голос в 2026 году — от простого к сложному.
Как работает клонирование голоса
Прежде чем переходить к инструментам — важно понять разницу в подходах.
Instant cloning (Zero-shot): модель слышит 30–60 секунд вашего голоса и сразу умеет им говорить. Быстро, достаточно хорошо. Так работает ElevenLabs Instant Voice Cloning и Qwen3-TTS.
Fine-tuning: модель дополнительно обучается на часах вашей записи. Голос получается точнее, стабильнее. Это ElevenLabs Professional — платно, зарубежная карта нужна.
Voice Conversion (RVC): берёте аудиофайл с любым голосом — RVC преобразует его в ваш. Работает локально, без интернета. Полностью бесплатно.
Для большинства задач контентмейкера достаточно Zero-shot. Fine-tuning нужен, если голос — часть вашего бренда и качество критично.
ElevenLabs: мировой стандарт через обходной канал
Самый популярный сервис для голоса. Из России работает только через обходной канал — прямой доступ закрыт.
Что бесплатно: 10 000 символов в месяц (~7–10 минут аудио), Instant Voice Cloning, до 3 голосов. Без коммерческой лицензии.
Как создать голосовую модель:
- Зайдите на elevenlabs.io через прокси, зарегистрируйтесь
- Откройте Voice Lab → Add Voice → Instant Voice Cloning
- Запишите или загрузите 30–60 секунд своего голоса (.wav или .mp3)
- Назовите голос → Submit — модель готова за 1–2 минуты
- Speech Synthesis: выберите свой голос, введите текст → Generate
Плюс: проще некуда, качество отличное, русский поддерживается хорошо. Минус: 10 000 символов заканчиваются быстро. Для монетизации нужен Starter ($5/мес, только зарубежная карта).
💡 Совет. Лучше использовать разнообразные фразы для записи образца — разные интонации, темп, вопросы и утверждения. Монотонный монолог даёт менее выразительный клон.
RVC: бесплатно и без лимитов на своём ПК
RVC (Retrieval-based Voice Conversion) — open-source проект, который работает полностью локально. Репозиторий на GitHub открывается из России без ограничений.
Принцип другой, чем у ElevenLabs: RVC не читает текст напрямую вашим голосом. Вы берёте аудиофайл с чужим голосом (например, синтез от Алисы или Гигачата) и конвертируете его в ваш голос. На выходе — речь вашим голосом.
Что нужно: Windows с NVIDIA GPU (RTX 2060+), готовая сборка RVC1006Nvidia (Hugging Face), 5–30 минут записи своего голоса.
Установка занимает 30–60 минут. После — никаких ограничений: генерируйте сколько угодно, офлайн, данные никуда не уходят.
Это вариант для тех, кто готов потратить время на настройку ради полного контроля.
Qwen3-TTS: свежий open-source с клонированием
Alibaba открыла Qwen3-TTS в январе 2026 — сразу с открытым исходным кодом. Основные характеристики:
- Клонирует голос из секунд записи (Zero-shot)
- Поддерживает 10+ языков, русский включён
- Размер модели 1.7B — запускается на ноутбуке с GPU
- По данным пользователей, интерфейс chat.qwen.ai открывается из России (официально не верифицировалось)
Для быстрого теста: fal.ai/models/fal-ai/qwen-3-tts — загружаете образец голоса, получаете синтез. Бесплатный лимит для тестирования есть. Модель также можно скачать и запустить локально через Python.
Хорошая альтернатива ElevenLabs без подписки и без серверных ограничений.
💡 Совет. Для озвучки на русском без клонирования — Алиса или Гигачат от Сбера работают с прямым доступом из России. Используйте их как источник аудио, который потом переводите в свой голос через RVC.
Юридическая сторона
В 2026 году технология обгоняет право, но базовые правила уже сложились.
В России нет специального закона о голосовых дипфейках, но действуют общие нормы: клонирование чужого голоса без согласия нарушает право на неприкосновенность частной жизни (ст. 152.2 ГК РФ). Использование в мошенничестве — отдельный состав и тяжкое преступление. Мы всячески осуждаем голосовые дипфейки и прочие нарушения закона.
Крупные платформы — YouTube, Spotify — ведут базы защищённых голосов: попытка клонировать голос известного исполнителя через ElevenLabs будет заблокирована автоматически.
В ЕС с 2025 года обязательна маркировка AI-generated аудио. В России это пока рекомендация, но практика складывается.
Как выбрать инструмент
Хочется быстро и просто — ElevenLabs (через обходной канал, 10 000 символов бесплатно, результат за 5 минут).
Хочется из России без посредников — Qwen3-TTS (по данным пользователей открывается, open-source, можно локально).
Нужен неограниченный объём — RVC (бесплатно, локально, нужен GPU и час на настройку).
Нужен голос для TTS без клонирования — Алиса или Гигачат от Сбера: прямой доступ, хорошее русскоязычное произношение, бесплатно.
👉 Подпишитесь на этот канал, чтобы получать актуальную информацию о полезных бесплатных нейросетях!