Команда FlashLabs представила Chroma 1.0, установив новый стандарт для open source голосовых систем. Это первая полностью открытая модель, способная к преобразованию голоса в голос без текстового посредника и обладающая функцией клонирования голоса. Chroma выделяется как полноценная end-to-end система. Она не требует распознавания речи в текст, использования больших языковых моделей (LLM) или синтеза речи (TTS). Весь процесс происходит напрямую в аудиоформате, что значительно уменьшает задержки и устраняет искажения, характерные для традиционных цепочек обработки. Заявленная задержка составляет менее 150 миллисекунд, что сравнимо со скоростью живого телефонного разговора и критически важно для голосовых ассистентов, переводчиков и колл-центров. При этом модель имеет относительно небольшой размер – всего 4 миллиарда параметров, что облегчает ее запуск. Особого внимания заслуживает функция клонирования голоса. Для этого достаточно нескольких секунд аудиозаписи. Показатель схожести голоса