Пока большинство обсуждает генерацию изображений и видео, в мире аудио происходит настоящая гонка технологий.
Компания Stability AI представила Stable Audio 3 — новое поколение моделей для генерации и редактирования звука. Новинка умеет создавать музыку и звуковые эффекты студийного качества с частотой 44,1 кГц, поддерживает редактирование готовых аудиозаписей, работает с переменной длительностью и при этом генерирует результат значительно быстрее предыдущих решений.
Главное событие заключается не только в выпуске новой модели. Stability AI также открыла веса части семейства Stable Audio 3, что позволит разработчикам запускать систему локально и использовать её в собственных проектах.
Что такое Stable Audio 3
Stable Audio 3 представляет собой целое семейство моделей, рассчитанных на разные сценарии использования.
В линейку входят:
- small-music — модель для генерации музыки;
- small-sfx — модель для генерации звуковых эффектов;
- medium — универсальная версия для музыки и эффектов;
- large — самая мощная версия семейства.
Модели различаются количеством параметров и максимальной продолжительностью генерируемого контента.
Например, версия medium способна создавать аудио длительностью до 6 минут 20 секунд, а крупные модели работают как с музыкой, так и со звуковыми эффектами.
Почему это важный релиз
Большинство современных аудиомоделей сталкиваются с одной и той же проблемой.
Чем длиннее аудиозапись, тем больше вычислений требуется для её генерации.
В результате создание длинных треков становится очень дорогим даже на мощном оборудовании.
Для решения этой проблемы в Stable Audio 3 используется новый автоэнкодер SAME (Semantically-Aligned Music AutoEncoder).
Его задача — максимально сжать аудиоданные перед генерацией.
Система использует коэффициент сжатия 4096×, что значительно превышает показатели большинства предыдущих аудиоавтоэнкодеров. Благодаря этому модель может работать с длинными композициями даже на потребительском оборудовании.
Как работает SAME
Архитектура SAME состоит из двух этапов.
Сначала аудио разбивается на фрагменты по 256 сэмплов на канал, что обеспечивает первичное уменьшение размера данных.
После этого применяется специальный блок Transformer Resampling Block, который дополнительно сокращает размер представления ещё в 16 раз.
В результате получается компактное латентное представление звука, которое намного проще обрабатывать нейросети.
При этом модель старается сохранить не только качество звучания, но и музыкальную структуру композиции, включая гармонию и пространственное расположение звуков.
Генерация музыки любой длительности
Одна из самых интересных возможностей Stable Audio 3 — поддержка переменной длины аудио.
Большинство моделей работают по фиксированной схеме: даже если нужен короткий звук, вычисления выполняются так, словно создаётся максимально длинная запись.
В Stable Audio 3 реализован другой подход.
Стоимость генерации напрямую зависит от требуемой длительности результата. Это позволяет экономить вычислительные ресурсы и ускоряет работу системы.
По данным Stability AI, версия medium способна создать 20 секунд аудио примерно за 0,62 секунды на ускорителе NVIDIA H200.
Даже генерация аудио длиной 6 минут 20 секунд занимает около 1,3 секунды.
Три этапа обучения
Для обучения Stable Audio 3 используется сложная трёхэтапная схема.
Этап 1. Flow Matching
На первом этапе модель учится преобразовывать случайный шум в осмысленные аудиоданные.
Одновременно происходит обучение редактированию и продолжению существующих аудиофрагментов.
Этап 2. Distillation Warmup
Затем создаётся облегчённая версия модели.
Она учится воспроизводить результаты более тяжёлой системы, что позволяет значительно ускорить генерацию.
Этап 3. Adversarial Post-Training
На заключительном этапе используется состязательное обучение.
Специальный дискриминатор оценивает качество аудио и помогает модели улучшить детализацию и естественность звучания.
Именно этот этап позволяет вернуть часть качества, которая обычно теряется при ускорении работы модели.
Генерация без CFG
Ещё одной особенностью Stable Audio 3 стал отказ от Classifier-Free Guidance во время генерации.
Обычно диффузионные модели выполняют два прохода на каждом шаге генерации:
- условный;
- безусловный.
После этого результаты комбинируются.
Такой подход улучшает качество, но серьёзно увеличивает вычислительную нагрузку.
В Stable Audio 3 разработчики встроили преимущества CFG непосредственно в процесс обучения, поэтому на этапе генерации дополнительные проходы уже не требуются.
Это позволило заметно ускорить работу системы.
Режим Ping-Pong Sampling
Для генерации используется техника Ping-Pong Sampling.
Сначала модель создаёт чистый вариант аудио.
Затем в него снова добавляется небольшое количество шума.
После этого выполняется повторное восстановление сигнала.
Процесс повторяется несколько раз подряд, постепенно улучшая качество результата.
Такой подход помогает исправлять ошибки предыдущих шагов и получать более стабильное звучание.
Что показывают тесты
Для оценки качества использовались музыкальные композиции и звуковые эффекты.
В музыкальных тестах версия Stable Audio 3 Large показала лучшие результаты по метрике FAD среди моделей семейства Stable Audio. Версия Medium оказалась практически на том же уровне.
В тестах генерации звуковых эффектов модели Stable Audio 3 также обошли ряд открытых конкурентов, включая предыдущие версии Stable Audio Open и Stable Audio Open Small.
Особенно интересно выглядит сочетание качества и скорости.
Например, версия Medium способна создавать 120 секунд музыки примерно за 0,78 секунды на H200, сохраняя высокие оценки по качеству звучания.
Редактирование и дорисовка аудио
Stable Audio 3 умеет не только создавать звук с нуля.
Модель поддерживает несколько сценариев редактирования:
- замена отдельных участков записи;
- восстановление пропущенных фрагментов;
- продолжение существующей композиции;
- редактирование звуковых эффектов.
Фактически система может выступать не только как генератор музыки, но и как полноценный инструмент для работы со звуком.
Какие версии доступны сейчас
На данный момент Stability AI открыла веса моделей:
- Stable Audio 3 Small Music;
- Stable Audio 3 Small SFX;
- Stable Audio 3 Medium.
Модель Large доступна по корпоративной лицензии.
Итоги
Stable Audio 3 показывает, насколько быстро развивается направление генеративного аудио.
Новая архитектура SAME, поддержка длинных композиций, генерация переменной длительности, отказ от CFG во время инференса и технология Ping-Pong Sampling позволили создать систему, которая одновременно остаётся быстрой и сохраняет высокое качество звучания.
Если раньше генерация музыки длиной несколько минут требовала серьёзных вычислительных ресурсов, то теперь подобные задачи начинают становиться доступными даже на потребительском оборудовании.
И судя по опубликованным результатам, борьба за лидерство среди музыкальных ИИ-моделей только начинается.