Найти в Дзене
4pda.to

Google запустила бесплатную ИИ-модель для быстрой генерации музыки

Компания Google представила нейросеть Magenta RealTime, которая генерирует мелодии не целиком, а отдельными фрагментами длительностью в две секунды. Это позволяет запускать ИИ-модель на слабом железе и предоставляет ещё несколько преимуществ. Нейросеть с 800 млн параметров была обучена на 190 000 ч композиций из открытых источников. Результат она генерирует поэтапно, поэтому у пользователя есть возможность контролировать создание трека в реальном времени и направлять процесс. Magenta RealTime учитывает не только промпты, но и содержимое предыдущих 10 секунд уже сгенерированного трека, поэтому мелодия получается согласованной. Ещё один плюс такого типа генерации — возможность работы даже на относительно слабом железе. Так, при запуске в Google Colab на бесплатном тарифе один двухсекундный отрезок с частотой дискретизации в 48 кГц создаётся всего за 1,25 секунды. Обучающий датасет был основан на композициях без вокала, поэтому нейросеть умеет генерировать только такие треки, а диапазон ж
   Google запустила бесплатную ИИ-модель для быстрой генерации музыки
Google запустила бесплатную ИИ-модель для быстрой генерации музыки

Компания Google представила нейросеть Magenta RealTime, которая генерирует мелодии не целиком, а отдельными фрагментами длительностью в две секунды. Это позволяет запускать ИИ-модель на слабом железе и предоставляет ещё несколько преимуществ.

-2

Нейросеть с 800 млн параметров была обучена на 190 000 ч композиций из открытых источников. Результат она генерирует поэтапно, поэтому у пользователя есть возможность контролировать создание трека в реальном времени и направлять процесс. Magenta RealTime учитывает не только промпты, но и содержимое предыдущих 10 секунд уже сгенерированного трека, поэтому мелодия получается согласованной.

Ещё один плюс такого типа генерации — возможность работы даже на относительно слабом железе. Так, при запуске в Google Colab на бесплатном тарифе один двухсекундный отрезок с частотой дискретизации в 48 кГц создаётся всего за 1,25 секунды.

Обучающий датасет был основан на композициях без вокала, поэтому нейросеть умеет генерировать только такие треки, а диапазон жанров ограничен западными. Модель уже опубликована на Hugging Face, а её исходный код — на GitHub. Демоверсию можно опробовать на Google Colab.