18 подписчиков

Вышла Chroma 1.0 - полностью открытая speech-to-speech модель с клонированием голоса

23 января23 янв

~1 мин

Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса. Главное: это не “распознавание + текст + озвучка”. Это end-to-end система, где разговор идёт напрямую голосом. Что обещают по характеристикам: - ⚡️ <150 мс задержка end-to-end (почти как живой звонок) - 🧬 качественный voice cloning по нескольким секундам аудио - 📈 схожесть голоса SIM = 0.817 (практически идентичный) - 🧠 reasoning всего на 4B параметров - 🔓 полностью открытые веса + код И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе. Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам. Model Code Telegram: @Age_of_it

Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса.

Главное:

это не “распознавание + текст + озвучка”.

Это end-to-end система, где разговор идёт напрямую голосом.

Что обещают по характеристикам:

- ⚡️ <150 мс задержка end-to-end (почти как живой звонок)

- 🧬 качественный voice cloning по нескольким секундам аудио

- 📈 схожесть голоса SIM = 0.817 (практически идентичный)

- 🧠 reasoning всего на 4B параметров

- 🔓 полностью открытые веса + код

И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе.

Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам.

Model

Code

Telegram: @Age_of_it