24 подписчика

Chroma 1.0: Open Source революция в голосе

22 января22 янв

1 мин

Команда FlashLabs представила Chroma 1.0, установив новый стандарт для open source голосовых систем. Это первая полностью открытая модель, способная к преобразованию голоса в голос без текстового посредника и обладающая функцией клонирования голоса. Chroma выделяется как полноценная end-to-end система. Она не требует распознавания речи в текст, использования больших языковых моделей (LLM) или синтеза речи (TTS). Весь процесс происходит напрямую в аудиоформате, что значительно уменьшает задержки и устраняет искажения, характерные для традиционных цепочек обработки. Заявленная задержка составляет менее 150 миллисекунд, что сравнимо со скоростью живого телефонного разговора и критически важно для голосовых ассистентов, переводчиков и колл-центров. При этом модель имеет относительно небольшой размер – всего 4 миллиарда параметров, что облегчает ее запуск. Особого внимания заслуживает функция клонирования голоса. Для этого достаточно нескольких секунд аудиозаписи. Показатель схожести голоса

Chroma выделяется как полноценная end-to-end система. Она не требует распознавания речи в текст, использования больших языковых моделей (LLM) или синтеза речи (TTS). Весь процесс происходит напрямую в аудиоформате, что значительно уменьшает задержки и устраняет искажения, характерные для традиционных цепочек обработки.

Заявленная задержка составляет менее 150 миллисекунд, что сравнимо со скоростью живого телефонного разговора и критически важно для голосовых ассистентов, переводчиков и колл-центров. При этом модель имеет относительно небольшой размер – всего 4 миллиарда параметров, что облегчает ее запуск.

Особого внимания заслуживает функция клонирования голоса. Для этого достаточно нескольких секунд аудиозаписи. Показатель схожести голоса (SIM) составляет 0.817, что приближается к субъективно неотличимому результату. Для open source модели это впечатляющий уровень, бросающий вызов коммерческим решениям.

Важным аспектом является полная открытость Chroma. FlashLabs предоставили доступ к весам, коду и научной статье. Модель уже оптимизирована для SGLang от LMSYS, что упрощает развертывание и снижает затраты на инференс, что указывает на ориентацию на практическое применение, а не только на исследования.

Если заявленные характеристики подтвердятся, Chroma 1.0 может стать первой реальной open source альтернативой закрытым системам преобразования речи в речь, предлагаемым крупными компаниями. Это особенно актуально для стартапов, исследователей и команд, которым важен контроль над моделью и данными.

Доступ к статье, модели и коду уже открыт, поэтому сообществу не придется долго ждать. Вскоре станет ясно, действительно ли Chroma меняет правила игры.