Boson AI недавно выпустили Higgs Audio V2, открытую модель для синтеза речи, которая легко клонирует голоса и обходит по качеству даже GPT 4o mini TTS и ElevenLabs v2. Эта штука обучена на 10 миллионах часов аудио, включая речь, музыку и разные события, и построена на базе Llama 3.2 с 3 миллиардами параметров. Работает в реальном времени даже на обычных устройствах, идеально справляется с эмоциями, просодией и диалогами нескольких спикеров на разных языках. Без всякой дообучки модель генерирует естественные разговоры, мелодичное мычание и даже речь с фоновой музыкой, а zero shot клонирование голосов просто поражает. В тестах Higgs Audio V2 показывает Angriff показывает себя сильно: выигрывает 75.7 процентов в эмоциях и 55.7 в вопросах над GPT 4o mini TTS по EmergentTTS Eval. Но не уверен про качественную поддержку русского языка :( Видео приложил, смотреть со звуком :) Русский ИТ бизнес
Boson AI недавно выпустили Higgs Audio V2, открытую модель для синтеза речи, которая легко клонирует голоса и обходит по качеству даже GPT
26 июля 202526 июл 2025
3
~1 мин