214 подписчиков

YuE: когда искусственный интеллект начинает петь, а не просто генерировать ноты

8 августа 20258 авг 2025

2 мин

Музыкальные генеративные модели уже давно умеют писать мелодии, аккорды и даже простенькие бэкинг-треки. Но YuE (乐), открытая модель от команды HKUST, поднимает планку на новый уровень — это уже не просто музыкальный движок, а полноценный виртуальный композитор и вокалист, который способен создать 5-минутную песню с текстом, аранжировкой и эмоциональной подачей. В отличие от предыдущих попыток, которые часто страдали от обрывочной структуры и “разъезда” текста с музыкой, YuE решает полную задачу lyrics-to-song — от стихов до финального мастер-трека. Ключевые технологии: YuE удивляет масштабом охвата: Отдельно впечатляет работа с вокалом. YuE не генерирует обезличенный «синтезаторный» голос, а старается передать манеру исполнения: дыхание, динамику, акценты.

Добавьте к этому клонирование голоса и получаем мощный инструмент для креативных продюсеров — от экспериментов с собственным тембром до воссоздания исторических стилей. YuE построена на архитектуре LLaMA2, масштабирована на триллион

Оглавление

🎼 Чем YuE отличается от привычных генераторов
🌍 Универсальность стиля и языка
🎤 Голос, который не просто поёт

Cияющий «AI-чип» порождает разноцветные волны-дорожки, которые сходятся к иконкам микрофона, гитары, барабана, клавиш и винила; в углу — глобус, намекающий на мультиязычность и смешение стилей. Визуальная метафора YuE: генерация полной песни по лирике с раздельными треками и выразительным вокалом.

Музыкальные генеративные модели уже давно умеют писать мелодии, аккорды и даже простенькие бэкинг-треки. Но YuE (乐), открытая модель от команды HKUST, поднимает планку на новый уровень — это уже не просто музыкальный движок, а полноценный виртуальный композитор и вокалист, который способен создать 5-минутную песню с текстом, аранжировкой и эмоциональной подачей.

🎼 Чем YuE отличается от привычных генераторов

В отличие от предыдущих попыток, которые часто страдали от обрывочной структуры и “разъезда” текста с музыкой, YuE решает полную задачу lyrics-to-song — от стихов до финального мастер-трека.

Ключевые технологии:

🎚 Раздельное предсказание треков (track-decoupled prediction) — инструментальные и вокальные линии анализируются и синтезируются по отдельности, что позволяет избежать «каши» при сложной аранжировке.
🧩 Прогрессивное структурное кондиционирование — модель «привязывает» длинный текст к музыкальной форме, чтобы куплеты, припевы и бриджи оставались на своих местах.
🔄 Многофазное обучение — от общих музыкальных паттернов до узких жанровых и языковых особенностей.

🌍 Универсальность стиля и языка

YuE удивляет масштабом охвата:

🎵 Жанры — от металлкора и гангста-рэпа до джаза, кантри и детских песен. Есть даже гибриды — например, китайский фолк с элементами пекинской оперы.
🗣 Вокальные техники — скэттинг, гроулинг, микс-голос, бельтинг, сложные мелизматические ходы.
🌐 Мультиязычность — английский, китайский (мандарин, кантонский), японский, корейский, плюс код-свитчинг внутри одной композиции.
🎭 Стиль-трансфер — можно превратить японский сити-поп в английский рэп, сохранив инструментал.

🎤 Голос, который не просто поёт

Отдельно впечатляет работа с вокалом. YuE не генерирует обезличенный «синтезаторный» голос, а старается передать манеру исполнения: дыхание, динамику, акценты.
Добавьте к этому клонирование голоса и получаем мощный инструмент для креативных продюсеров — от экспериментов с собственным тембром до воссоздания исторических стилей.

🛠 Техническая значимость

YuE построена на архитектуре LLaMA2, масштабирована на триллионы токенов и открыта на Hugging Face. Это важно по двум причинам:

📂 Открытые чекпоинты позволяют сообществу не только слушать готовые треки, но и дообучать модель под редкие языки или узкие жанры.
🔍 Применимость за пределами генерации — в задачах музыкального анализа YuE уже показывает SOTA-результаты на MARBLE-бенчмарке, что открывает двери в мир интеллектуальных музыкальных ассистентов.

💭 Моё мнение

YuE — редкий пример, когда исследовательский проект может стать инструментом для реальных артистов. Она объединяет мощь языковых моделей с глубокой музыкальной адаптацией, а открытость к сообществу может привести к появлению целой экосистемы «умных» музыкальных плагинов.

Но при всей красоте технологии возникает вопрос авторских прав: если YuE может скопировать вокальный стиль или аранжировку конкретного исполнителя, где проходит граница между вдохновением и плагиатом? Это дискуссия, которая точно развернётся в ближайшие годы.

🔗 Ссылки по теме: