Munute — это захватывающая новинка в мире искусственного интеллекта, способная улучшать музыкальные треки. Munute подвластно всё — от удаления шумов и регулировки громкости до настройки выразительности отдельных инструментов и пересведения всей песни. Давайте погрузимся в детали этой удивительной нейросети.
1. Stable Diffusion и Основы Munute
Stable Diffusion — это нейросеть, изначально разработанная для генерации изображений по текстовому описанию. Однако её таланты не ограничиваются только визуальным искусством. В ходе экспериментов стало ясно, что Stable Diffusion также способна создавать музыку.
Munute — это продукт, вышедший из лаборатории Stable Diffusion. Её задача — улучшать музыкальные композиции. Вот как это происходит:
2. Генерация Аудиоспектрограмм
- Stable Diffusion генерирует аудиоспектрограммы. Что это такое? Это визуальные представления звуковых частот в треке. Спектрограммы можно воспроизвести, чтобы получить звуковую дорожку.
- Нейросеть обучена на сонограммах, которые описывают музыкальные жанры или звуки.
3. Riffusion: Генерация Звука из Изображения
- В ходе обучения была создана Riffusion — нейросеть, способная генерировать звук из изображения, которое создается по текстовому описанию.
- Для воспроизведения аудиодорожки используется Torchaudio.
- Разработчики добились плавного перехода между аудиоклипами, чтобы темп музыки не менялся резко.