90 подписчиков

А в опенсорсе не дремлет ACE-Step, который разрастается числом моделей, лор от сообщества, да и интерфейсы под генерацию треков и тренировку

30 апреля30 апр

2 мин

лор прокачиваются всё сильнее. Конкретно интерфейс ACE-Step UI под копирку "вдохновлён" Suno с его выбором моделей, загрузкой референс трека, режимом кавера, настройкой голоса, bpm, и лирики (даже улучшайзер можно подрубить), но обладает всеми крутилками опенсорса, которые тут на удивление органично вписаны. И помимо ожидаемых рулек параметров вроде настройки длительности, количества треков, шагов, и прочего, тут есть и экзотичные: выбор метода инференса, llm для обработки лирики, режим Thinking, и даже аудио-инпейнт для замены части композиции генерацией. А что ещё круче, в опциях каждого трека можно: * Сгенерировать видео (простецкий визуализатор синхронизованный с музыкой) * Отредактировать трек на таймлайне в опенсорсном редакторе AudioMass * Вытащить стемы опенсорсной тулзой Demucs, которая работает через WebGPU (!) Всё это открывается в отдельных окнах и под капотом само качает и ставит что нужно. Самое сладкое, что оное потребляет 4+ ГБ без LLM и до 12 ГБ с ней, а генерации о

А в опенсорсе не дремлет ACE-Step, который разрастается числом моделей, лор от сообщества, да и интерфейсы под генерацию треков и тренировку лор прокачиваются всё сильнее.

Конкретно интерфейс ACE-Step UI под копирку "вдохновлён" Suno с его выбором моделей, загрузкой референс трека, режимом кавера, настройкой голоса, bpm, и лирики (даже улучшайзер можно подрубить), но обладает всеми крутилками опенсорса, которые тут на удивление органично вписаны. И помимо ожидаемых рулек параметров вроде настройки длительности, количества треков, шагов, и прочего, тут есть и экзотичные: выбор метода инференса, llm для обработки лирики, режим Thinking, и даже аудио-инпейнт для замены части композиции генерацией.

А что ещё круче, в опциях каждого трека можно:

* Сгенерировать видео (простецкий визуализатор синхронизованный с музыкой)

* Отредактировать трек на таймлайне в опенсорсном редакторе AudioMass

* Вытащить стемы опенсорсной тулзой Demucs, которая работает через WebGPU (!)

Всё это открывается в отдельных окнах и под капотом само качает и ставит что нужно. Самое сладкое, что оное потребляет 4+ ГБ без LLM и до 12 ГБ с ней, а генерации очень шустрые — меньше 6 сек на трек на 4090. Единственно я заметил, что если генерить пачками, то треки одновременно закидываются во VRAM и могут забить её. Альтернативно можно запустить всё в Comfy c динамической загрузкой видеопамяти.

Я ставил ACE-Step UI через Pinokio, который сильно проапргрейдился. Но можно ставить и напрямую с гитхаба.

Другой интересный интерфейс на основе ACE-Step это Side-Step, выполненный в стиле аудиомагнитофона, и остро-заточенный на тренировку лор на основе модели.

Также недавно появился AceJam, где вместо крутилок ты вайбкодишь просто описываешь желаемое, и квантованный Qwen в тандеме с ACE-Step моделью тебе это генерит.

Плюс в Comfy недавно завезли ворки для генерации ACE-Step 1.5 XL моделями для генерации в высоком качестве. Правда оно не гарантирует качественной структуры, но ок.

Да, качество звука пока не Suno и не Udio. Однако приятный UI уже есть. Плюс вокруг проекта активно развивается опенсорсная экосистема, а сами разрабы для баланса развивают и коммерческую часть ACE Music для простой генерации и ACE Studio для студийного режима.

Будем наблюдать за развитием событий.

ACE-Step UI (Pinokio)

ACE-Step UI (Гитхаб)

Side-Step (Pinokio)

ACE Studio (сайт)

ACE Music (сайт)

В этом посте есть большое видео, которое не загрузилось в Дзен. Откройте оригинал поста в телеграме, чтобы его посмотреть

Гаджеты и электроника

5,73 млн интересуются