Команда k2-fsa представила OmniVoice — модель text-to-speech с архитектурой на базе диффузионных языковых моделей. • Поддержка более 600 языков (сколько ?) — один из самых широких охватов среди zero-shot TTS-моделей • Клонирование голоса по короткому референсу (3–10 секунд) • Дизайн голоса через атрибуты: пол, возраст, тембр, акцент, стиль (например, шёпот) • Тонкая настройка: вставка невербальных звуков ([laughter], [sigh]) и коррекция произношения через пиньинь или CMU-словарь • Высокая скорость инференса: RTF от 0.025 (в 40 раз быстрее реального времени) Три режима генерации 1. Клонирование: передаёте аудио с образцом голоса и текст — модель воспроизводит речь с сохранением тембра. Референсный текст можно не указывать: модель автоматически расшифрует аудио через Whisper. 2. Дизайн: описываете желаемый голос инструкцией, например "female, low pitch, british accent", и получаете синтезированную речь без исходного образца. 3. Автовыбор: модель самостоятельно подбирает голос, если
OmniVoice: новая открытая модель синтеза речи с поддержкой кучи языков
3 дня назад3 дня назад
1 мин