Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning

Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро. Самое интересное: VoxCPM фактически убирает токенизацию из TTS. Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую. Это убирает “токенные артефакты” и лучше сохраняет: - интонацию - темп речи - эмоции и просодию Технически: • End-to-end diffusion + autoregressive генерация • Непрерывные акустические представления • Без узких мест типа фонем и codec-токенов 🧬 Клонирование голоса - буквально по нескольким секундам аудио Достаточно короткого референса, и модель переносит: - акцент - ритм - тембр - паузы и тайминг Возможности: • Zero-shot voice cloning • Без обучения под конкретного спикера • Работает в режиме streaming ⚡ Быстро и легко тюнится Стриминг идёт чанками с задержкой меньше секунды. А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели. https://github.com/OpenBMB/VoxCPM

🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning

Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.

Самое интересное: VoxCPM фактически убирает токенизацию из TTS.

Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.

Это убирает “токенные артефакты” и лучше сохраняет:

- интонацию

- темп речи

- эмоции и просодию

Технически:

• End-to-end diffusion + autoregressive генерация

• Непрерывные акустические представления

• Без узких мест типа фонем и codec-токенов

🧬 Клонирование голоса - буквально по нескольким секундам аудио

Достаточно короткого референса, и модель переносит:

- акцент

- ритм

- тембр

- паузы и тайминг

Возможности:

• Zero-shot voice cloning

• Без обучения под конкретного спикера

• Работает в режиме streaming

⚡ Быстро и легко тюнится

Стриминг идёт чанками с задержкой меньше секунды.

А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.

https://github.com/OpenBMB/VoxCPM

Open Source
12 тыс интересуются