Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро. Самое интересное: VoxCPM фактически убирает токенизацию из TTS. Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую. Это убирает “токенные артефакты” и лучше сохраняет: - интонацию - темп речи - эмоции и просодию Технически: • End-to-end diffusion + autoregressive генерация • Непрерывные акустические представления • Без узких мест типа фонем и codec-токенов 🧬 Клонирование голоса - буквально по нескольким секундам аудио Достаточно короткого референса, и модель переносит: - акцент - ритм - тембр - паузы и тайминг Возможности: • Zero-shot voice cloning • Без обучения под конкретного спикера • Работает в режиме streaming ⚡ Быстро и легко тюнится Стриминг идёт чанками с задержкой меньше секунды. А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели. https://github.com/OpenBMB/VoxCPM
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning
18 января18 янв
3
~1 мин