Найти в Дзене
NEUROI

Нейросеть прокачает качество старых песен и улучшит свежие треки

Оглавление

Munute — это захватывающая новинка в мире искусственного интеллекта, способная улучшать музыкальные треки. Munute подвластно всё — от удаления шумов и регулировки громкости до настройки выразительности отдельных инструментов и пересведения всей песни. Давайте погрузимся в детали этой удивительной нейросети.

1. Stable Diffusion и Основы Munute

Stable Diffusion — это нейросеть, изначально разработанная для генерации изображений по текстовому описанию. Однако её таланты не ограничиваются только визуальным искусством. В ходе экспериментов стало ясно, что Stable Diffusion также способна создавать музыку.

Munute — это продукт, вышедший из лаборатории Stable Diffusion. Её задача — улучшать музыкальные композиции. Вот как это происходит:

2. Генерация Аудиоспектрограмм

  • Stable Diffusion генерирует аудиоспектрограммы. Что это такое? Это визуальные представления звуковых частот в треке. Спектрограммы можно воспроизвести, чтобы получить звуковую дорожку.
  • Нейросеть обучена на сонограммах, которые описывают музыкальные жанры или звуки.

3. Riffusion: Генерация Звука из Изображения

  • В ходе обучения была создана Riffusion — нейросеть, способная генерировать звук из изображения, которое создается по текстовому описанию.
  • Для воспроизведения аудиодорожки используется Torchaudio.
  • Разработчики добились плавного перехода между аудиоклипами, чтобы темп музыки не менялся резко.