Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса. Главное: это не “распознавание + текст + озвучка”. Это end-to-end система, где разговор идёт напрямую голосом. Что обещают по характеристикам: - ⚡️ <150 мс задержка end-to-end (почти как живой звонок) - 🧬 качественный voice cloning по нескольким секундам аудио - 📈 схожесть голоса SIM = 0.817 (практически идентичный) - 🧠 reasoning всего на 4B параметров - 🔓 полностью открытые веса + код И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе. Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам. Model Code Telegram: @Age_of_it
Вышла Chroma 1.0 - полностью открытая speech-to-speech модель с клонированием голоса
23 января23 янв
~1 мин