Добавить в корзинуПозвонить
Найти в Дзене
Нейрозона сегодня

Chroma 1.0: Open Source революция в голосе

Команда FlashLabs представила Chroma 1.0, установив новый стандарт для open source голосовых систем. Это первая полностью открытая модель, способная к преобразованию голоса в голос без текстового посредника и обладающая функцией клонирования голоса. Chroma выделяется как полноценная end-to-end система. Она не требует распознавания речи в текст, использования больших языковых моделей (LLM) или синтеза речи (TTS). Весь процесс происходит напрямую в аудиоформате, что значительно уменьшает задержки и устраняет искажения, характерные для традиционных цепочек обработки. Заявленная задержка составляет менее 150 миллисекунд, что сравнимо со скоростью живого телефонного разговора и критически важно для голосовых ассистентов, переводчиков и колл-центров. При этом модель имеет относительно небольшой размер – всего 4 миллиарда параметров, что облегчает ее запуск. Особого внимания заслуживает функция клонирования голоса. Для этого достаточно нескольких секунд аудиозаписи. Показатель схожести голоса

Команда FlashLabs представила Chroma 1.0, установив новый стандарт для open source голосовых систем. Это первая полностью открытая модель, способная к преобразованию голоса в голос без текстового посредника и обладающая функцией клонирования голоса.

Chroma выделяется как полноценная end-to-end система. Она не требует распознавания речи в текст, использования больших языковых моделей (LLM) или синтеза речи (TTS). Весь процесс происходит напрямую в аудиоформате, что значительно уменьшает задержки и устраняет искажения, характерные для традиционных цепочек обработки.

Заявленная задержка составляет менее 150 миллисекунд, что сравнимо со скоростью живого телефонного разговора и критически важно для голосовых ассистентов, переводчиков и колл-центров. При этом модель имеет относительно небольшой размер – всего 4 миллиарда параметров, что облегчает ее запуск.

Особого внимания заслуживает функция клонирования голоса. Для этого достаточно нескольких секунд аудиозаписи. Показатель схожести голоса (SIM) составляет 0.817, что приближается к субъективно неотличимому результату. Для open source модели это впечатляющий уровень, бросающий вызов коммерческим решениям.

Важным аспектом является полная открытость Chroma. FlashLabs предоставили доступ к весам, коду и научной статье. Модель уже оптимизирована для SGLang от LMSYS, что упрощает развертывание и снижает затраты на инференс, что указывает на ориентацию на практическое применение, а не только на исследования.

Если заявленные характеристики подтвердятся, Chroma 1.0 может стать первой реальной open source альтернативой закрытым системам преобразования речи в речь, предлагаемым крупными компаниями. Это особенно актуально для стартапов, исследователей и команд, которым важен контроль над моделью и данными.

Доступ к статье, модели и коду уже открыт, поэтому сообществу не придется долго ждать. Вскоре станет ясно, действительно ли Chroma меняет правила игры.