Найти тему
TexTerra Daily

Нейросеть Riffusion делает музыку из текстового описания

Оглавление

Мы протестировали нейросеть, от которой у музыкантов будут мурашки по коже.

По какой именно причине пойдут мурашки, зависит от музыканта: кому-то созданный нейросетью звук будет резать слух, кто-то испугается за свое будущее, а кто-то поймет, как сильно расширит его возможности новая нейросеть. В любом случае, равнодушным она вас не оставит.

Нейросеть, создающая музыку

Никого уже не удивишь нейросетями, которые создают целые поэмы по одной фразе или генерируют картины, побеждающие в конкурсах, по текстовому описанию. Музыка должна была стать следующей мишенью разработчиков нейросетей, и, наконец, у нас есть качественное ПО, способное не просто миксовать различные треки, но и создавать целые композиции по одному текстовому описанию.

Нейросеть называется Riffusion (название отчасти объясняется именем нейросети Stable Diffusion, на основе которой создана программа, и музыкальным термином «рифф»). Принцип ее работы основан на обработке сонограмм — двумерных изображений, показывающих зависимость мощности сигнала от времени. По сути, это тот графический вид, в котором мы привыкли воспринимать музыку:

-2

Два разработчика — Сет Форсгрен и Хайк Мартирос — воспользовались тем фактом, что сонограмма является изображением, и обучили Stable Diffusion на примерах сонограмм, связав каждую из них в «мозгах» нейросети с описаниями звуков или музыкальных жанров, которые они представляют. В результате нейросеть научилась сопоставлять музыкальные жанры с видом сонограммы и смогла генерировать собственные подобные изображения по текстовому описанию.

Изображения, созданные Riffusion, можно конвертируются в звуковую дорожку при помощи библиотеки PyTorch от TorchAudio на Python.

Тест нейросети Riffusion

Интерфейс нейросети Riffusion очень прост: надо лишь ввести в специальной строке описание нужной вам мелодии на английском, после чего нажать Enter, а затем — кнопку воспроизведения в правом верхнем углу. Затем можно поделиться созданным рифом.

Мы попросили нейросеть сгенерировать российский гимн в стиле рок. Видимо, нейросеть не знает российский гимн, поэтому композиция вышла странной.

Зато, например, «lo-fi бит для праздников» получился очень даже неплохим. А вот с запросами вроде «kpop boys/girls band» нейросеть справляется не очень — слова практически не слышны, хотя отдаленно стиль кажется похожим на популярные группы.

В общем, если вы хотите быстро создать музыку без авторских прав и не маяться с долгим поиском подходящей композиции, эта нейросеть вполне сможет сгенерировать небольшой инструментал.