616 подписчиков

📖 YuE: новый музыкальный ИИ с открытым кодом бросает вызов Suno и Udio

13 августа 202513 авг 2025

146

3 мин

В конце января 2025 года исследователи из HKUST и M-A-P представили YuE — семейство ИИ-моделей с открытым исходным кодом, способных генерировать полноценные пятиминутные песни из текста. На фоне судебных исков к таким гигантам, как Suno и Udio, YuE предлагает прозрачную и легально доступную альтернативу для музыкантов и разработчиков, так как распространяется по лицензии Apache 2.0 через GitHub (https://github.com/multimodal-art-projection/YuE). Как работает YuE: фокус на качестве и когерентности YuE построен на архитектуре LLaMA 2 и обучен на триллионах токенов. Способность модели сохранять целостность на протяжении нескольких минут достигается за счёт нескольких ключевых инноваций: ▫️ Разделение дорожек (track-decoupled next-token prediction). Модель обрабатывает вокал и аккомпанемент как отдельные, параллельные потоки. Это предотвращает искажение вокала в плотных инструментальных секциях (например, в метале) и обеспечивает чистоту текста. ▫️ Структурное кондиционирование (structural

Как работает YuE: фокус на качестве и когерентности

YuE построен на архитектуре LLaMA 2 и обучен на триллионах токенов. Способность модели сохранять целостность на протяжении нескольких минут достигается за счёт нескольких ключевых инноваций:

▫️ Разделение дорожек (track-decoupled next-token prediction). Модель обрабатывает вокал и аккомпанемент как отдельные, параллельные потоки. Это предотвращает искажение вокала в плотных инструментальных секциях (например, в метале) и обеспечивает чистоту текста.

▫️ Структурное кондиционирование (structural progressive conditioning). Для сохранения целостности на длинных отрезках, YuE разбивает песню на логические сегменты ([куплет], [припев]) и фокусируется на поддержании мелодической консистентности внутри каждого блока.

▫️ Обучение в контексте (in-context learning). Пользователи могут загрузить короткий аудиоклип, чтобы задать стиль, что позволяет осуществлять высококачественное клонирование голоса и смешивать жанры. Демонстрации показывают, что модель способна даже на сложные вокальные техники, такие как скэт, гроулинг и а капелла.

Развитие и обновления

Проект активно развивается с момента первого релиза в конце января 2025 года. Вот ключевые этапы:

▫️ Январь. Первая версия YuE была выпущена 26 января. Уже 30 января разработчики добавили режим ICL (In-Context Learning), позволяющий генерировать музыку в стиле референсного трека.

▫️ Март. Вышел технический отчёт (https://arxiv.org/abs/2503.08638) с детальным описанием архитектуры и методов обучения модели.

▫️ Июнь. Добавлена поддержка LoRA finetune, что позволяет пользователям более гибко дообучать модель на собственных данных.

Открытый исходный код на фоне судебных войн

Дебют YuE состоялся в тот момент, когда индустрия музыкального ИИ столкнулась с фундаментальными юридическими вопросами. Напомним, в июне 2024 года RIAA подала иск против Suno и Udio за массовое нарушение авторских прав. Председатель RIAA Митч Глейзер тогда заявил, что «нелицензированные сервисы… тормозят развитие по-настоящему инновационного ИИ».

Suno и Udio защищаются, ссылаясь на доктрину «добросовестного использования» (fair use). CEO Suno Майки Шульман утверждает, что их модель «создана для генерации совершенно новых произведений, а не для запоминания и повторения существующего контента».

Пока судебные баталии продолжаются, а мейджор-лейблы, по слухам, уже ведут переговоры о лицензировании, другие игроки выбирают более осторожный путь. Например, стартап ElevenLabs запустил свой инструмент Eleven Music, построенный на стратегии «сначала лицензия».

Ландшафт исков и лицензий

Эта напряжённость между инновациями и правами интеллектуальной собственности приводит к расколу в индустрии. Платформы и технологические компании вынуждены действовать осторожно. Google маркирует весь контент в Music AI Sandbox водяными знаками, а NVIDIA и вовсе не спешит выпускать свою мощную модель Fugatto.

Осторожность отражает общую тревогу в творческом сообществе, которую точно выразила писательница Джоанна Мацеевска: «Я хочу, чтобы ИИ стирал и мыл посуду, чтобы я могла заниматься искусством, а не чтобы ИИ занимался искусством, пока я стираю и мою посуду».

Выпуская YuE как мощный инструмент с открытым кодом, его создатели делают ставку на то, что будущее музыкального ИИ будут определять прозрачность и сообщество, а не закрытые судебные разбирательства.

💬 Как считаете, смогут ли открытые модели вроде YuE стать новым стандартом, или рынок всё же будут определять закрытые лицензионные решения от крупных игроков?

Пост из моего тг-канала «Музыкальный ИИ» — https://t.me/gensound.

Гаджеты и электроника

5,73 млн интересуются