Созданная в качестве хобби Сетом Форсгреном и Хайком Мартиросом, Riffusion работает путем создания сонограмм, которые хранят аудио в двухмерном изображении.Ferra

В сонограмме ось X представляет собой время (порядок воспроизведения частот слева направо), а ось Y - частоту звуков.Ferra

В результате получилась Riffusion — нейросеть, способная генерировать звук из изображения, которое создается по текстовому описанию.Российская газета

Для вывода именно аудиодорожки используется Torchaudio.Российская газета

Эта новость в СМИ

iXBT.com

17 декабря 2022 года

Теперь и музыканты: создана нейросеть на базе Stable Diffusion, которая генерирует музыку по текстовому описанию

Ferra

17 декабря 2022 года

Riffusion: новая нейросеть, создающая музыку из текста с помощью визуальных сонограмм

Создана нейросеть, которая генерирует музыку по текстовому описанию