Добавить в корзинуПозвонить
Найти в Дзене
SunN1nja

ElevenLabs больше не нужен? Появилась бесплатная нейросеть для клонирования голоса, дубляжа видео и диктовки без облака

За последние несколько лет ElevenLabs стал одним из самых популярных сервисов для синтеза речи и клонирования голосов. Но у такого подхода есть очевидные недостатки: подписка стоит от нескольких долларов до сотен долларов в месяц, а все аудиофайлы проходят через удалённые серверы. Теперь появился интересный открытый проект, который предлагает альтернативный подход. OmniVoice Studio — это локальное приложение с открытым исходным кодом для клонирования голоса, дубляжа видео, распознавания речи, диктовки и разделения говорящих. Причём все операции выполняются непосредственно на компьютере пользователя без передачи данных в облако. Разберёмся, что умеет этот инструмент и почему он уже привлёк внимание сообщества. Разработчики собрали в одном приложении сразу несколько возможностей, которые обычно приходится получать через разные сервисы. Среди основных функций: Фактически OmniVoice Studio пытается стать универсальным центром для работы с голосовыми технологиями. Одна из самых интересных фу
Оглавление
ElevenLabs больше не нужен? Появилась бесплатная нейросеть для клонирования голоса, дубляжа видео и диктовки без облака
ElevenLabs больше не нужен? Появилась бесплатная нейросеть для клонирования голоса, дубляжа видео и диктовки без облака

За последние несколько лет ElevenLabs стал одним из самых популярных сервисов для синтеза речи и клонирования голосов. Но у такого подхода есть очевидные недостатки: подписка стоит от нескольких долларов до сотен долларов в месяц, а все аудиофайлы проходят через удалённые серверы.

Теперь появился интересный открытый проект, который предлагает альтернативный подход.

OmniVoice Studio — это локальное приложение с открытым исходным кодом для клонирования голоса, дубляжа видео, распознавания речи, диктовки и разделения говорящих. Причём все операции выполняются непосредственно на компьютере пользователя без передачи данных в облако.

Разберёмся, что умеет этот инструмент и почему он уже привлёк внимание сообщества.

Что умеет OmniVoice Studio

Разработчики собрали в одном приложении сразу несколько возможностей, которые обычно приходится получать через разные сервисы.

Среди основных функций:

  • клонирование голоса;
  • создание новых голосов;
  • автоматический дубляж видео;
  • диктовка текста в реальном времени;
  • определение нескольких спикеров в аудио;
  • интеграция через MCP-сервер.

Фактически OmniVoice Studio пытается стать универсальным центром для работы с голосовыми технологиями.

Клонирование голоса всего по 3 секундам записи

Одна из самых интересных функций проекта — Voice Cloning.

Для создания копии голоса достаточно короткого аудиофрагмента длительностью около трёх секунд. Система использует zero-shot подход, то есть способна воспроизводить голос, на котором ранее не обучалась.

Процесс выглядит максимально просто:

  1. Открывается раздел Voice Clone.
  2. Загружается или записывается короткий образец голоса.
  3. Вводится текст.
  4. Выбирается язык.
  5. Нажимается кнопка генерации.

После этого система создаёт новый аудиофайл с клонированным голосом.

Поддержка 646 языков

Самый впечатляющий показатель проекта связан именно с языками.

По данным разработчиков, стандартный движок OmniVoice поддерживает более 646 языков для синтеза речи, тогда как ElevenLabs работает примерно с 32 языками.

Кроме того, система использует WhisperX для распознавания речи, который поддерживает 99 языков.

Для пользователей, работающих с редкими языками и диалектами, это может стать серьёзным преимуществом.

Автоматический дубляж видео

OmniVoice Studio умеет автоматически переводить и озвучивать видео.

В качестве источника можно использовать:

  • ссылку на YouTube;
  • локальный видеофайл.

После запуска начинается полный конвейер обработки:

  1. Распознавание речи через WhisperX.
  2. Перевод текста.
  3. Генерация новой озвучки.
  4. Сборка итогового видео.

Особенно интересно, что для сохранения оригинальной атмосферы используется технология Demucs.

Она отделяет голос от фоновой музыки и звуковой дорожки, после чего новая озвучка объединяется с оригинальным звуком. В результате пользователь получает уже готовый MP4-файл с дубляжом.

Можно обрабатывать до 50 видео сразу

Для тех, кто работает с большим количеством контента, предусмотрена пакетная обработка.

В очередь можно загрузить до 50 видео одновременно и оставить систему выполнять работу автоматически. Для каждой задачи отображается собственный индикатор прогресса.
Это особенно удобно для локализации больших библиотек видеоконтента.

Системная диктовка для любых приложений

В приложении есть встроенный режим диктовки.

На macOS он вызывается сочетанием клавиш:

⌘ + ⇧ + Space

После активации появляется плавающее окно ввода.

Распознанный текст автоматически вставляется в активное приложение. Это может быть браузер, редактор документов, мессенджер или любая другая программа.

Определение нескольких говорящих

Ещё одна полезная возможность — Speaker Diarization.

Технология позволяет определить:

  • сколько людей участвует в разговоре;
  • кто именно произнёс конкретную фразу;
  • какие реплики принадлежат каждому участнику.
    Для этого используются инструменты Pyannote и WhisperX.

Подобная функция может оказаться полезной для интервью, подкастов, встреч и конференций.

Шесть движков синтеза речи

В отличие от большинства решений, OmniVoice Studio не привязан к одному TTS-движку.

Сейчас доступны сразу шесть вариантов:

  • OmniVoice;
  • CosyVoice 3;
  • MLX-Audio;
  • VoxCPM2;
  • MOSS-TTS-Nano;
  • KittenTTS.

Каждый движок имеет собственные особенности по скорости, качеству и поддерживаемым языкам.

При необходимости разработчики могут добавить собственный движок буквально несколькими десятками строк Python-кода.

Из чего состоит система

Архитектура проекта выглядит довольно серьёзно для открытого решения.

Основу составляют:

  • React;
  • FastAPI;
  • SQLite;
  • WhisperX;
  • Demucs;
  • Pyannote;
  • AudioSeal.

Для настольной версии используется Tauri — современный фреймворк на базе Rust.

Система автоматически определяет:

  • NVIDIA CUDA;
  • Apple MPS;
  • AMD ROCm.

Если видеопамяти недостаточно, часть задач автоматически переносится на процессор без ручной настройки.

Как установить OmniVoice Studio

Для запуска понадобятся:

  • ffmpeg;
  • Bun;
  • uv.

После установки зависимостей выполняются команды:

git clone https://github.com/debpalash/OmniVoice-Studio.git

cd OmniVoice-Studio

uv sync

bun install

bun dev

После запуска веб-интерфейс будет доступен по адресу:

http://localhost:5173

API запускается на порту:

8000

Все необходимые модели загружаются автоматически при первом использовании.

Почему этот проект может стать серьёзным конкурентом ElevenLabs

Главное отличие OmniVoice Studio заключается не только в том, что проект бесплатный.

Он предлагает совершенно другой подход:

  • отсутствие подписки;
  • отсутствие API-ключей;
  • отсутствие облачных серверов;
  • полный контроль над данными;
  • локальное выполнение всех операций.

Для многих пользователей именно конфиденциальность становится решающим фактором.

Если раньше для клонирования голоса или дубляжа видео приходилось загружать данные на сторонние серверы, теперь всё можно выполнять на собственном компьютере.

А поддержка сотен языков, встроенный дубляж видео, пакетная обработка и интеграция через MCP делают OmniVoice Studio одним из самых интересных open-source проектов в области голосового ИИ, появившихся за последнее время.