Добавить в корзинуПозвонить
Найти в Дзене
NEURO-AI

Google выпустила Magenta RealTime 2 для живой генерации музыки на MacBook

Google представила Magenta RealTime 2, или MRT2, - открытую модель для живой генерации музыки. В отличие от сервисов, где пользователь пишет промпт и ждёт готовый трек, новая версия рассчитана на непрерывное управление звуком: музыкант может менять стиль, играть MIDI-партии, смешивать аудиопримеры и слышать результат почти сразу. Magenta RealTime 2 поддерживает три типа управления: текстовые описания, аудиопримеры и MIDI. Это сдвигает её ближе к инструменту для выступлений, джема и прототипирования саундтреков, а не к генератору фоновой музыки «под задачу». В приложениях к релизу Google показывает сценарии клонирования звуков, смешивания жанров и создания аккомпанемента вживую. В релиз вошли сама модель с открытыми весами на 2,4 млрд параметров, уменьшенная версия на 230 млн параметров, Python-библиотека magenta-rt, C++-движок для потоковой генерации и набор примеров для приложений и плагинов. Код распространяется под Apache 2.0, веса модели - под Creative Commons Attribution 4.0. Goog
Оглавление

Google представила Magenta RealTime 2, или MRT2, - открытую модель для живой генерации музыки. В отличие от сервисов, где пользователь пишет промпт и ждёт готовый трек, новая версия рассчитана на непрерывное управление звуком: музыкант может менять стиль, играть MIDI-партии, смешивать аудиопримеры и слышать результат почти сразу.

Модель реагирует на MIDI, текст и аудио

Magenta RealTime 2 поддерживает три типа управления: текстовые описания, аудиопримеры и MIDI. Это сдвигает её ближе к инструменту для выступлений, джема и прототипирования саундтреков, а не к генератору фоновой музыки «под задачу». В приложениях к релизу Google показывает сценарии клонирования звуков, смешивания жанров и создания аккомпанемента вживую.

В релиз вошли сама модель с открытыми весами на 2,4 млрд параметров, уменьшенная версия на 230 млн параметров, Python-библиотека magenta-rt, C++-движок для потоковой генерации и набор примеров для приложений и плагинов. Код распространяется под Apache 2.0, веса модели - под Creative Commons Attribution 4.0. Google отдельно указывает, что не претендует на права на созданные пользователем результаты, но ответственность за нарушения авторских прав остаётся на пользователе.

Задержку управления сократили примерно до 200 мс

Главное техническое отличие MRT2 от первой Magenta RealTime - задержка реакции. В таблице Google указывает переход от фрейма в 2 секунды к 40 мс и снижение задержки управления примерно с 3 секунд до 200 мс. Для музыкального инструмента это принципиально: три секунды превращают модель в генератор идей, 200 мс уже позволяют думать о живой игре и интерактивных инсталляциях.

Архитектура строится вокруг аудиокодека SpectroStream, модели MusicCoCa для общего пространства текста и музыки и decoder-only Transformer LLM, который генерирует аудиотокены с учётом контекста, стиля и MIDI-сигналов. Звук работает в формате 48 кГц stereo, а для приложений и плагинов требуется выставить частоту 48 кГц в DAW или настройках Audio MIDI Setup.

Реальное время пока привязано к Apple Silicon

Magenta RealTime 2 можно запускать локально, но аппаратные требования заметны. Малая версия на 230 млн параметров работает в реальном времени на любом MacBook с Apple Silicon, включая MacBook Air. Базовая версия на 2,4 млрд параметров требует MacBook M3 Pro или выше либо MacBook M2 Max или выше. Оба размера могут запускаться офлайн не в реальном времени на любом Mac с Apple Silicon, а через Python-библиотеку также на NVIDIA GPU.

Вместе с моделью Google выпустила готовые инструменты: Jam для игры с пресетами и MIDI, Collider для смешивания промптов на 2D-поверхности, MRT2 Plugin & App для интеграции с DAW и расширения для Max/MSP, PureData и SuperCollider. Такой набор показывает целевую аудиторию релиза: музыканты, разработчики музыкального ПО, саунд-дизайнеры и авторы интерактивных проектов.

Ограничения лежат в авторских правах и вокале

По карточке модели, Magenta RealTime 2 обучали примерно на 71 тыс. часов стоковой музыки из нескольких источников, в основном инструментальной. Google пишет, что модель ориентирована на генерацию и управление инструментальной музыкой; при специальных промптах она может выдавать вокальные звуки и эффекты, но обычно без осмысленных слов.

Слабое место релиза - правовая зона вокруг музыкальных ИИ-моделей. Открытые веса дают разработчикам больше свободы, но не снимают вопрос о том, как именно будут использоваться результаты в коммерческих треках, играх, рекламе и живых выступлениях. Google заранее перекладывает эту часть на пользователей: проверка прав и допустимости использования остаётся их задачей.

Живые ИИ-инструменты становятся практичнее

Magenta RealTime 2 интересна не тем, что генерирует музыку как таковую. Таких моделей уже много. Сильная часть релиза - попытка сделать генеративную модель управляемой в моменте: через клавиши, аудиоконтекст и быстрые изменения стиля.

Следующий рубеж виден из планов самой команды. Google обещает добавить дообучение на собственных данных и расширять сценарии с потоковым аудиовводом. Если эти функции дойдут до стабильного состояния, MRT2 может стать не демо для исследователей, а базой для новых плагинов, игровых саундтреков и музыкальных инструментов, где ИИ не заменяет партию целиком, а реагирует на исполнителя во время игры.