Найти в Дзене
Neurogen

Fun-CosyVoice 3.0

Преобразование текста в речь (TTS), основанная на больших языковых моделях, которая превосходит своего предшественника CosyVoice 2.0 по всем ключевым параметрам 0.5B параметров при конкурентном качестве 9 основных языков: китайский, английский, японский, корейский, немецкий, испанский, французский, итальянский, русский Zero-shot клонирование голоса для многоязычного и кросс-лингвального синтеза Достигла sota по точности содержания, сходству с голосом и естественности просодии Сверхнизкая задержка, потоковая генерация с латентностью всего 150 мс при сохранении высокого качества аудио Поддержка инструкций: языки, диалекты, эмоции, скорость, громкость Коррекция произношения с помощью китайского Pinyin и английских CMU фонем Автоматическая нормализация текста без традиционного фронтенд-модуля RL версия показала лучшие результаты по точности среди всех open-source моделей Демо GitHub Hugging Face

Fun-CosyVoice 3.0

Преобразование текста в речь (TTS), основанная на больших языковых моделях, которая превосходит своего предшественника CosyVoice 2.0 по всем ключевым параметрам

0.5B параметров при конкурентном качестве

9 основных языков: китайский, английский, японский, корейский, немецкий, испанский, французский, итальянский, русский

Zero-shot клонирование голоса для многоязычного и кросс-лингвального синтеза

Достигла sota по точности содержания, сходству с голосом и естественности просодии

Сверхнизкая задержка, потоковая генерация с латентностью всего 150 мс при сохранении высокого качества аудио

Поддержка инструкций: языки, диалекты, эмоции, скорость, громкость

Коррекция произношения с помощью китайского Pinyin и английских CMU фонем

Автоматическая нормализация текста без традиционного фронтенд-модуля

RL версия показала лучшие результаты по точности среди всех open-source моделей

Демо

GitHub

Hugging Face

-2