Найти в Дзене
Vadim Parfenov | AI Automation

Vikhr Borealis - первая русскоязычная открытая audio llm

Vikhr Borealis - первая русскоязычная открытая audio llm Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно? Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке. Блог так же выйдет, там будут небольшие аблейшены по данным Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam. Модель Сolab поиграться

Vikhr Borealis - первая русскоязычная открытая audio llm

Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?

Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.

Блог так же выйдет, там будут небольшие аблейшены по данным

Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.

Модель

Сolab поиграться