Найти в Дзене
ИИчница

🥚 Написал на VC статью, о новой нейронке Cartesia — Sonic 3 для генерации и синтеза речи и о том, как ей пользоваться

В ответ на пост 🥚 Написал на VC статью, о новой нейронке Cartesia — Sonic 3 для генерации и синтеза речи и о том, как ей пользоваться. 😍 В статье рассказал о ключевых преимуществах данной нейронки, но забыл сделать сравнение с конкурентами, поэтому дополню эту информацию здесь: 🐣 Традиционные генераторы речи, такие как ElevenLabs или OpenAI Voice Engine, работают на основе трансформеров. Эти модели перед каждым новым словом пересчитывают весь контекст диалога, из-за чего синтез голоса получается довольно ресурсоёмким и не самым быстрым. 💥 В Sonic-3 используется иная технология — State Space Models (SSM). Она не анализирует разговор заново, а сохраняет текущее состояние и обновляет его по мере речи, как это делает человек. Благодаря этому ответы формируются почти мгновенно (около 0,19 секунды) и звучат естественно и плавно, без задержек и механических интонаций — быстрее, чем у ElevenLabs. 🤝 Такой подход идеально подходит там, где люди ждут живого отклика — в голосовых помощник

В ответ на пост

🥚 Написал на VC статью, о новой нейронке Cartesia — Sonic 3 для генерации и синтеза речи и о том, как ей пользоваться.

😍 В статье рассказал о ключевых преимуществах данной нейронки, но забыл сделать сравнение с конкурентами, поэтому дополню эту информацию здесь:

🐣 Традиционные генераторы речи, такие как ElevenLabs или OpenAI Voice Engine, работают на основе трансформеров. Эти модели перед каждым новым словом пересчитывают весь контекст диалога, из-за чего синтез голоса получается довольно ресурсоёмким и не самым быстрым.

💥 В Sonic-3 используется иная технология — State Space Models (SSM). Она не анализирует разговор заново, а сохраняет текущее состояние и обновляет его по мере речи, как это делает человек. Благодаря этому ответы формируются почти мгновенно (около 0,19 секунды) и звучат естественно и плавно, без задержек и механических интонаций — быстрее, чем у ElevenLabs.

🤝 Такой подход идеально подходит там, где люди ждут живого отклика — в голосовых помощниках, колл-центрах, медицине, сервисах бронирования. Когда ответ идёт без паузы, разговор кажется настоящим, и человек чувствует, что его действительно слушают.

@iicnica | ИИчница