Создана нейросеть, которая генерирует музыку по текстовому описанию

Созданная в качестве хобби Сетом Форсгреном и Хайком Мартиросом, Riffusion работает путем создания сонограмм, которые хранят аудио в двухмерном изображении.Ferra
В сонограмме ось X представляет собой время (порядок воспроизведения частот слева направо), а ось Y - частоту звуков.Ferra
В результате получилась Riffusion — нейросеть, способная генерировать звук из изображения, которое создается по текстовому описанию.Российская газета
Для вывода именно аудиодорожки используется Torchaudio.Российская газета
Эта новость в СМИ