Теперь и музыканты: создана нейросеть на базе Stable Diffusion, которая генерирует музыку по текстовому описанию
Созданная в качестве хобби Сетом Форсгреном и Хайком Мартиросом, Riffusion работает путем создания сонограмм, которые хранят аудио в двухмерном изображении.Ferra
В сонограмме ось X представляет собой время (порядок воспроизведения частот слева направо), а ось Y - частоту звуков.Ferra
В результате получилась Riffusion — нейросеть, способная генерировать звук из изображения, которое создается по текстовому описанию.Российская газета
Для вывода именно аудиодорожки используется Torchaudio.Российская газета