Добавить в корзинуПозвонить
Найти в Дзене

CosyVoice 3 — это новейшая версия продвинутой системы синтеза речи (TTS) от команды FunAudioLLM (Alibaba).

Если Rowboat — это «память», то CosyVoice 3 — это «голос» искусственного интеллекта. Вот подробный разбор того, что умеет эта система: 1. Zero-Shot клонирование голоса Главная фишка системы. Ей достаточно всего 3-10 секунд записи вашего голоса, чтобы научиться имитировать его. - Вам не нужно обучать модель часами. - ИИ копирует не только тембр, но и манеру речи, интонации и даже дефекты или особенности произношения. 2. Мультиязычность и Cross-lingual синтез CosyVoice 3 поддерживает 9 основных языков (включая русский, английский, китайский, японский, корейский, немецкий, испанский и французский). Смена языка: Вы можете «заставить» голос, записанный на русском, идеально говорить на японском или английском, сохраняя при этом идентичность исходного голоса. Диалекты: Система поддерживает более 18 китайских диалектов, что демонстрирует её глубокую работу с акцентами. 3. Эмоциональный контроль (Instruct Mode) В отличие от «роботизированных» голосов, CosyVoice 3 понимает текстовые инструкции.

Если Rowboat — это «память», то CosyVoice 3 — это «голос» искусственного интеллекта.

Вот подробный разбор того, что умеет эта система:

1. Zero-Shot клонирование голоса

Главная фишка системы. Ей достаточно всего 3-10 секунд записи вашего голоса, чтобы научиться имитировать его.

- Вам не нужно обучать модель часами.

- ИИ копирует не только тембр, но и манеру речи, интонации и даже дефекты или особенности произношения.

2. Мультиязычность и Cross-lingual синтез

CosyVoice 3 поддерживает 9 основных языков (включая русский, английский, китайский, японский, корейский, немецкий, испанский и французский).

Смена языка: Вы можете «заставить» голос, записанный на русском, идеально говорить на японском или английском, сохраняя при этом идентичность исходного голоса.

Диалекты: Система поддерживает более 18 китайских диалектов, что демонстрирует её глубокую работу с акцентами.

3. Эмоциональный контроль (Instruct Mode)

В отличие от «роботизированных» голосов, CosyVoice 3 понимает текстовые инструкции. Вы можете указать в запросе:

* «Скажи это радостно» или «Скажи это сердито».

* Настроить скорость и громкость.

* Добавлять в речь паузы, смех или вздохи для максимальной естественности

4. Технические преимущества версии 3.0

Ультра-низкая задержка (150 мс):

Система поддерживает «би-стриминг» (потоковый ввод текста и потоковый вывод аудио). Это делает её пригодной для телефонных роботов и ИИ-ассистентов, работающих в реальном времени.

Масштаб обучения:

Модель обучена на огромном датасете (около 1 млн часов аудио), что позволило значительно снизить количество ошибок в произношении сложных слов и цифр.

Pronunciation Inpainting: Возможность вручную корректировать произношение отдельных слов (например, брендов или имен), если ИИ ошибся в ударении.

Применение

Озвучка контента: Создание аудиокниг, подкастов и видео для YouTube/TikTok.

Игровой ИИ: Динамическая озвучка персонажей (NPC), которые реагируют на действия игрока разными голосами и эмоциями.

Локализация: Быстрый перевод видео с сохранением голоса оригинального актера.

Вердикт: На текущий момент это одна из самых мощных и быстрых open-source моделей для синтеза речи, которая вплотную приблизилась к качеству человеческого голоса.

Ссылка на проект: funaudiollm.github.io/cosyvoice3/