Программисты создали модель искусственного интеллекта под названием Riffusion, которая может сочинять музыку из изображения, а если точнее, из аудиоспектрограммы — визуальных изображений звуковых частот. В свою очередь аудиоспектрограмма генерируется по текстовому описанию. Спектрограммы — это визуальные представления звука, которые показывают амплитуду различных частот во времени. По ним можно определить отдельные ноты и даже инструменты, если знать, на что ориентироваться. И, разумеется, их можно конвертировать обратно в звук, чем и занимается Riffusion. Созданный на базе Stable Diffusion инструмент сделал спектрограммы нескольких музыкальных композиций и пометил получившиеся изображения соответствующими терминами, такими как «блюзовая гитара», «джазовое пианино», «афробит» и тому подобное. Предоставление модели этой коллекции дало хорошее представление о том, как «выглядят» определённые звуки и как программа может воссоздать или комбинировать их. При этом разработчики смогли застави
Нейросеть Riffusion генерирует и визуализирует музыку по описанию
25 декабря 202225 дек 2022
106
1 мин