35 подписчиков

OmniVoice: новая открытая модель синтеза речи с поддержкой кучи языков

3 дня назад3 дня назад

1 мин

Команда k2-fsa представила OmniVoice — модель text-to-speech с архитектурой на базе диффузионных языковых моделей. • Поддержка более 600 языков (сколько ?) — один из самых широких охватов среди zero-shot TTS-моделей • Клонирование голоса по короткому референсу (3–10 секунд) • Дизайн голоса через атрибуты: пол, возраст, тембр, акцент, стиль (например, шёпот) • Тонкая настройка: вставка невербальных звуков ([laughter], [sigh]) и коррекция произношения через пиньинь или CMU-словарь • Высокая скорость инференса: RTF от 0.025 (в 40 раз быстрее реального времени) Три режима генерации 1. Клонирование: передаёте аудио с образцом голоса и текст — модель воспроизводит речь с сохранением тембра. Референсный текст можно не указывать: модель автоматически расшифрует аудио через Whisper. 2. Дизайн: описываете желаемый голос инструкцией, например "female, low pitch, british accent", и получаете синтезированную речь без исходного образца. 3. Автовыбор: модель самостоятельно подбирает голос, если

OmniVoice: новая открытая модель синтеза речи с поддержкой кучи языков.

Команда k2-fsa представила OmniVoice — модель text-to-speech с архитектурой на базе диффузионных языковых моделей.

• Поддержка более 600 языков (сколько ?) — один из самых широких охватов среди zero-shot TTS-моделей

• Клонирование голоса по короткому референсу (3–10 секунд)

• Дизайн голоса через атрибуты: пол, возраст, тембр, акцент, стиль (например, шёпот)

• Тонкая настройка: вставка невербальных звуков ([laughter], [sigh]) и коррекция произношения через пиньинь или CMU-словарь

• Высокая скорость инференса: RTF от 0.025 (в 40 раз быстрее реального времени)

Три режима генерации

1. Клонирование: передаёте аудио с образцом голоса и текст — модель воспроизводит речь с сохранением тембра. Референсный текст можно не указывать: модель автоматически расшифрует аудио через Whisper.

2. Дизайн: описываете желаемый голос инструкцией, например "female, low pitch, british accent", и получаете синтезированную речь без исходного образца.

3. Автовыбор: модель самостоятельно подбирает голос, если не заданы ни референс, ни инструкция.

pip install torch torchaudio

pip install omnivoice

Запустить демо-интерфейс можно одной командой:omnivoice-demo --ip 0.0.0.0 --port 8001

Также доступны консольные утилиты для одиночного и пакетного инференса, включая распределённую обработку на нескольких GPU.

Предоставлен чистый Python API с гибкими параметрами генерации: количество шагов диффузии, коэффициент скорости, фиксированная длительность вывода. Исходный код, примеры обучения и документация — в открытом доступе.

Проект распространяется под лицензией Apache 2.0

Ссылка на репозиторий:

https://github.com/k2-fsa/OmniVoice