На этой неделе вышли два значимых обновления в сфере ИИ-музыки, и ни одно из них не связано с Suno.
ElevenLabs, основанная в Польше компания в сфере голосового ИИ, оцениваемая в 11 млрд долларов после раунда Series D на 500 млн долларов в феврале, запустила Music v2. Stability AI — команда, стоящая за Stable Diffusion, — выпустила Stable Audio 3.0, семейство из четырёх моделей с открытыми весами и треками продолжительностью более шести минут.
Контекстом служат иски Ассоциации звукозаписывающей индустрии Америки по авторским правам против Suno и Udio от 2024 года, из-за которых фраза «обучено на лицензированных данных» стала самой важной в любом анонсе музыкального ИИ. И ElevenLabs, и Stability делают на этом сильный акцент, уверяя, что у вас не возникнет проблем с создаваемыми результатами.
Music v2: один трек, от оперы до хеви-метала, без развала Music v2 — вторая музыкальная модель ElevenLabs, появившаяся примерно через 10 месяцев после первой. Главный тезис — связность под нагрузкой. По словам ElevenLabs, один трек может переходить от оперы к хеви-металу и обратно, сохранять цельность при быстром рэпе и включать немузыкальные звуковые эффекты — и всё это без распада композиции.
Генеративное аудио обычно начинает разваливаться именно тогда, когда промпты становятся сложными, поэтому за этим стоит следить особенно внимательно, особенно в длинных композициях.
Инпейнтинг теперь действительно полезен: выберите фрагмент, сгенерируйте его заново, а всё остальное оставьте без изменений. Пользователи также могут создавать песни по частям — вступление, куплет, припев, — при этом модель сохраняет непрерывность на протяжении всего трека, вместо того чтобы воспринимать каждый клип как отдельную генерацию. Многоязычная поддержка тоже улучшилась, хотя ElevenLabs не раскрыла подробностей.
Модель работает на трёх платформах: ElevenMusic для авторов, ElevenAPI для разработчиков и ElevenCreative для брендов. Сейчас она доступна в ElevenMusic и ElevenCreative; доступ к API предоставляется в раннем режиме через отдел продаж.
ElevenLabs также снизила цены на Music v1 и v2 до 50% для ElevenAPI и до 40% для самостоятельного использования ElevenCreative. В апреле 2026 года годовая регулярная выручка компании достигла 500 млн долларов. Музыка пока остаётся небольшой частью этого бизнеса, но ElevenMusic, запущенная в апреле как потребительское приложение, — это прямой удар по пользовательской базе Suno.
Stable Audio 3.0: открытые веса, работа на устройстве и действительно больше длины Stable Audio 2.0 ограничивалась тремя минутами и уже на момент запуска в 2024 году отставала от Suno. Stable Audio 3.0 поставляется с четырьмя моделями: Small SFX (звуковые эффекты на устройстве), Small (полноценная музыкальная композиция на устройстве), Medium (до 6:20, более мощное оборудование) и Large (только через API). У трёх из четырёх моделей открытые веса доступны на Hugging Face.
Модели Small работают на 459 млн параметров каждая — GPU не требуется. (Параметры, по сути, измеряют ёмкость ИИ-модели.) Medium достигает 1,4 млрд параметров и генерирует результат длиной 6:20 примерно за 1,31 секунды на GPU H200. Large, с 2,7 млрд параметров, доступна только через API для организаций с выручкой более 1 млн долларов. Посекундная точность генерации означает, что вы получаете ровно ту длину трека, которую запросили, а не приблизительный вариант.
Также поддерживается ComfyUI для локальных установок
Архитектура новая: семантико-акустический автоэнкодер, который Stability называет SAME, разработанный для сохранения мелодической связности в более длинных результатах. Поддерживается дообучение LoRA, поэтому артисты могут адаптировать модели под собственные каталоги. Инпейнтинг тоже есть — односегментный, многосегментный и каузальное продолжение для продления трека за пределы его исходной конечной точки.
Для контекста: LoRA (модель Low-Rank Adaptation) похожа на крошечную модель, которая задаёт условия того, как полная модель генерирует свои результаты. Если обучить LoRA на блюзе, модель будет создавать блюз; если обучить LoRA на блюзе Би Би Кинга, модель будет создавать песни, которые будут звучать как Би Би Кинг. Инпейтинг означает, что модель может исправлять небольшие ошибки в своём создании. Например, если модель галлюцинирует что-то на отметке 2:30, вы можете выбрать несколько секунд песни, попросить модель изменить этот фрагмент так, как вам нужно, и модель сгенерирует часть песни, которая идеально впишется в этот временной отрезок и сольётся с песней в целом.
Stability уже много лет технически убедительна в сфере ИИ-музыки, но коммерческого прорыва пока не добилась. Ставка на открытые веса — это стратегия Stable Diffusion, применённая к аудио: дать импульс сообществу разработчиков и посмотреть, что будет создано. Лицензирование стало чище, чем у всего, что Stable Audio выпускала раньше: уже действуют партнёрства с Universal Music Group и Warner Music Group.
Цель: Suno, король ИИ-музыки Если ChatGPT — король ИИ-текста, то Suno — король ИИ-музыки. Компания, стоящая за моделью, достигла оценки в 2,45 млрд долларов в ноябре 2025 года, превысила 300 млн долларов годовой регулярной выручки, а её сервисом воспользовались примерно 100 млн человек.
Она генерирует около 7 млн песен в день. Warner Music урегулировала свой иск против Suno в ноябре 2025 года; Sony и UMG всё ещё находятся в федеральном суде.
Чтобы избежать этих войн за авторские права, ElevenLabs заключила лицензионные соглашения с Believe, Kobalt и Merlin. У Stability есть Warner и Universal. Udio урегулировала споры со всеми тремя мейджорами и теперь представляет собой закрытую экосистему — ничто из того, что вы генерируете, не может покинуть платформу.
Stable Audio 3.0 Small и Medium уже доступны на Hugging Face. Large работает через API Stability AI. Music v2 бесплатна для пользователей ElevenMusic, а коммерческие тарифы доступны через ElevenCreative и ElevenAPI.
source: tech.yahoo.com url: https://tech.yahoo.com/ai/deals/articles/elevenlabs-stability-ai-drop-ai-203313505.html date: 2026-05-27
Моя генерация инструментального трека в SUNO , переходите,слушайте Это ссылка на Яндекс Музыка