Добавить в корзинуПозвонить
Найти в Дзене
4pda.to

Нейросеть Riffusion генерирует и визуализирует музыку по описанию

Программисты создали модель искусственного интеллекта под названием Riffusion, которая может сочинять музыку из изображения, а если точнее, из аудиоспектрограммы — визуальных изображений звуковых частот. В свою очередь аудиоспектрограмма генерируется по текстовому описанию. Спектрограммы — это визуальные представления звука, которые показывают амплитуду различных частот во времени. По ним можно определить отдельные ноты и даже инструменты, если знать, на что ориентироваться. И, разумеется, их можно конвертировать обратно в звук, чем и занимается Riffusion. Созданный на базе Stable Diffusion инструмент сделал спектрограммы нескольких музыкальных композиций и пометил получившиеся изображения соответствующими терминами, такими как «блюзовая гитара», «джазовое пианино», «афробит» и тому подобное. Предоставление модели этой коллекции дало хорошее представление о том, как «выглядят» определённые звуки и как программа может воссоздать или комбинировать их. При этом разработчики смогли застави
   Нейросеть Riffusion генерирует и визуализирует музыку по описанию
Нейросеть Riffusion генерирует и визуализирует музыку по описанию

Программисты создали модель искусственного интеллекта под названием Riffusion, которая может сочинять музыку из изображения, а если точнее, из аудиоспектрограммы — визуальных изображений звуковых частот. В свою очередь аудиоспектрограмма генерируется по текстовому описанию.

Спектрограммы — это визуальные представления звука, которые показывают амплитуду различных частот во времени. По ним можно определить отдельные ноты и даже инструменты, если знать, на что ориентироваться. И, разумеется, их можно конвертировать обратно в звук, чем и занимается Riffusion.

   Часть песни Marconi’s Radio группы Secret Machines,
Часть песни Marconi’s Radio группы Secret Machines,

Созданный на базе Stable Diffusion инструмент сделал спектрограммы нескольких музыкальных композиций и пометил получившиеся изображения соответствующими терминами, такими как «блюзовая гитара», «джазовое пианино», «афробит» и тому подобное. Предоставление модели этой коллекции дало хорошее представление о том, как «выглядят» определённые звуки и как программа может воссоздать или комбинировать их. При этом разработчики смогли заставить нейросеть генерировать такие аудиоклипы, которые могли бы плавно «перетекать» друг в друга. То есть, где темп музыки не меняется резко.

-3

И действительно, модель оказалась способной генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как «причудливое фортепиано», «джазовый саксофон» и так далее.

Примеры созданной ИИ музыки можно оценить по ссылке.