Найти в Дзене
Машинное обучение

🗣 Обновился Step-Audio-EditX- инструмент для редактирования и управления речью с помощью ИИ, и апдейт получился очень мощным

🗣 Обновился Step-Audio-EditX- инструмент для редактирования и управления речью с помощью ИИ, и апдейт получился очень мощным. Что прокачали: Эмоции и стиль речи Сильно выросла точность передачи эмоций и стилистики. Речь звучит естественнее и ближе к живому человеку, а не к синтезатору. Более "живая" речь Добавлены новые паралингвистические теги — модель лучше передает нюансы интонации, акцентов, выразительности и характера речи. Контроль темпа Появилось более плавное и точное управление скоростью речи без потери естественного звучания. Для разработчиков тоже много полезного: Открыт тренировочный код Доступны пайплайны для SFT, DPO и GRPO. Можно дообучать модель под свои данные и конкретные задачи. Высокая эффективность Инференс и обучение оптимизированы, используется vLLM для быстрого запуска, батчинга и масштабирования. По сути, это уже не просто TTS, а инструмент тонкой правки и стилизации речи. Отлично подходит для озвучки, дубляжа, подкастов, голосовых ассистентов и любых

🗣 Обновился Step-Audio-EditX- инструмент для редактирования и управления речью с помощью ИИ, и апдейт получился очень мощным.

Что прокачали:

Эмоции и стиль речи

Сильно выросла точность передачи эмоций и стилистики. Речь звучит естественнее и ближе к живому человеку, а не к синтезатору.

Более "живая" речь

Добавлены новые паралингвистические теги — модель лучше передает нюансы интонации, акцентов, выразительности и характера речи.

Контроль темпа

Появилось более плавное и точное управление скоростью речи без потери естественного звучания.

Для разработчиков тоже много полезного:

Открыт тренировочный код

Доступны пайплайны для SFT, DPO и GRPO. Можно дообучать модель под свои данные и конкретные задачи.

Высокая эффективность

Инференс и обучение оптимизированы, используется vLLM для быстрого запуска, батчинга и масштабирования.

По сути, это уже не просто TTS, а инструмент тонкой правки и стилизации речи. Отлично подходит для озвучки, дубляжа, подкастов, голосовых ассистентов и любых продуктов, где важна естественная и управляемая речь.

GitHub: https://github.com/stepfun-ai/Step-Audio-EditX/tree/main

Demo page: https://stepaudiollm.github.io/step-audio-editx

Live Demo: https://stepfun.com/studio/audio?tab=edit

Huggingface: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX