15 подписчиков

Современные алгоритмы машинного обучения для генерации музыки: от мелодий до симфоний

9 февраля9 фев

7 мин

2 июля 2012 года участники Лондонского симфонического оркестра исполнили «Transits — Into An Abyss» музыкальное произведение написанное искусственным разумом. Композицию создал суперкомпьютер Iamus, названный в честь героя греческой мифологии Иама обладавший даром провидения будущего и являвшегося сыном прекрасного и могущественного покровителя искусств Аполлона. Iamus был построен в испанском университете Малаги. Его единственное назначение — сочинять музыку. Премьера была посвящена столетию со дня рождения Алана Тьюринга. Сегодня музыка, созданная алгоритмами, перестала быть технической диковинкой и стала полноправным направлением цифрового искусства. Как же работают современные системы ИИ, способные создавать музыку, и что они могут сегодня? Фундаментальный вопрос: является ли музыка, сгенерированная ИИ, творчеством или статистической симуляцией? Философ Льюис Хайд в книге «Дар: как творческий дух преображает мир» утверждает, что искусство всегда предполагает дар — инте

2 июля 2012 года участники Лондонского симфонического оркестра исполнили «Transits — Into An Abyss» музыкальное произведение написанное искусственным разумом. Композицию создал суперкомпьютер Iamus, названный в честь героя греческой мифологии Иама обладавший даром провидения будущего и являвшегося сыном прекрасного и могущественного покровителя искусств Аполлона. Iamus был построен в испанском университете Малаги. Его единственное назначение — сочинять музыку. Премьера была посвящена столетию со дня рождения Алана Тьюринга. Сегодня музыка, созданная алгоритмами, перестала быть технической диковинкой и стала полноправным направлением цифрового искусства. Как же работают современные системы ИИ, способные создавать музыку, и что они могут сегодня?

Фундаментальный вопрос: является ли музыка, сгенерированная ИИ, творчеством или статистической симуляцией? Философ Льюис Хайд в книге «Дар: как творческий дух преображает мир» утверждает, что искусство всегда предполагает дар — интенциональную передачу смысла от автора к слушателю. У алгоритма нет интенции.

Но, возможно, мы наблюдаем рождение новой парадигмы, где «автором» становится система «человек + ИИ». Композитор будущего — не тот, кто пишет каждую ноту, а тот, кто задает творческие ограничения, выбирает из сгенерированных вариантов, направляет и курирует процесс. Как сказал Брайан Ино, британский композитор, специализирующийся в области электронной музыки неакадемических жанров и стилей и пионер эмбиента: «Интересен не результат, а процесс. Алгоритм — это семя, из которого вырастает бесконечное дерево вариаций».

От правил к паттернам: эволюция подхода

Исторически алгоритмическая композиция существовала веками — от мензуральной нотации Средневековья до серийной техники Шёнберга. Но все эти системы были детерминированными: человек задавал правила, компьютер их исполнял.

Перелом произошел с приходом машинного обучения. Вместо программирования правил гармонии и мелодики, ИИ начал учиться на данных — тысячах партитур и аудиозаписей. Его задача: выявить скрытые паттерны и научиться генерировать новые последовательности, которые «звучат как музыка», но при этом не являются прямыми копиями.

1. RNN и LSTM: мастера последовательностей

Рекуррентные нейронные сети (RNN) и их продвинутая версия - сети с долгой краткосрочной памятью (LSTM) - стали первыми серьезными инструментами для генерации музыки. Их ключевая особенность - способность запоминать контекст.

Сеть получает на вход последовательность нот и учится предсказывать следующую ноту на основе предыдущих. Процесс напоминает обучение языковой модели: после «до-ми-соль» с высокой вероятностью последует «до».

Примером может являться проект Magenta от Google, где LSTM-модели генерируют мелодии в стиле Bach chorales. Интересно, что эти сети иногда «нарушают» классические правила голосоведения, создавая неожиданные, но убедительные гармонические ходы.

2. Generative Adversarial Networks (GAN): соревнование за красоту

GAN — это дуэт из двух нейросетей: генератора, который создает музыку, и дискриминатора, который пытается отличить «фейковую» музыку от реальной. Генератор генерирует данные из случайного потока данных. Дискриминатор принимает как настоящие данные, так и данные, созданные генератором, и пытается отличить их друг от друга. В процессе соревнования генератор учится создавать всё более убедительные композиции. Он анализируют музыкальные треки, выявляя закономерности в гармонии, ритме, мелодике и структуре композиций. Метафорично работу GAN можно представить как работу «фальшивомонетчика» и «следователя». Задача генератора — создать из шума реалистичный экземпляр данных, например, музыкальную последовательность. Задача дискриминатора — отличить реальный экземпляр данных от «фальшивой», созданной генератором.

Особенно эффективен такой алгоритм для создания коротких музыкальных фрагментов с определенной стилистикой. Например, так работает JazzGAN. Модель GAN для монофонической джазовой музыки, использует LSTM для музыкальной импровизации на основе последовательности аккордов.

GAN сложно генерировать длинные, структурированные композиции с развитием во времени — они хороши в создании «моментальных снимков» музыки.

3. Transformers и Attention: новая эра

Архитектура Transformer, совершившая революцию в обучении машин языку, оказалась невероятно эффективной и для музыки. Главная идея трансформера — последовательность можно обрабатывать не во времени, а в пространстве. Вместо линейного перехода от одного элемента к другому модель рассматривает всю последовательность сразу и вычисляет, насколько каждый элемент важен для каждого другого. Архитектура трансформера состоит из кодировщика и декодировщика. Кодировщик получает на вход векторизованную последовательность с позиционной информацией. Декодировщик получает на вход часть этой последовательности и выход кодировщика.

Ключевой механизм позволяет модели учитывать зависимости между далеко отстоящими нотами, что критически важно для музыкальной структуры.

Прорывными стали проекты Music Transformer от Google. Он генерирует полифоническую музыку с выразительным временным исполнением (rubato, динамика). MuseNet от OpenAI. Модель на 10 млн параметров, способная создавать композиции в стилях от Моцарта до The Beatles, смешивая жанры и инструменты. Jukebox то же от OpenAI. Генерирует не только ноты, но и сырой аудиосигнал, включая вокал с псевдо-текстом. Может создавать трек в стиле конкретного исполнителя.

4. Diffusion Models: на пути к музыкальной пьесе

Это алгоритм продвинулся от музыкальных коротких фраз к симфонии и стал самым современным подходом. Сначала он завоевал мир генерации изображений, а теперь применяется и к музыке. Модель учится постепенно «очищать» случайный шум, превращая его в связную музыкальную структуру.

Использование диффузионных моделей для генерации музыки предполагает разные подходы. Например, генерация не аудиофайлов напрямую, а спектрограмм - визуальное представление звуковых частот. Так работает сервис Riffusion. Он генерирует картинку спектрограммы, а затем преобразует эту визуальную информацию обратно в аудио.

Другой подход использует интерполяции в скрытом пространстве модели для плавного перехода между двумя разными музыкальными идеями. Он применяется в guidance во время сэмплирования, чтобы сгенерированное аудио соответствовало окружающему контексту или распределению класса. Это позволяет, например, продолжать заданную мелодию, создавать плавные переходы между треками или передавать стилистические характеристики существующим аудиоклипам.

Еще один вариант, использование «визуального синапса» в моделях для синтеза музыки, которые сочетают информацию из текстового описания и изображения. Это позволяет добавлять семантику из визуальной модальности в сгенерированную музыку

Диффузионная модель генерации музыки на основе текстовых запросов (промптов) используется сервисом Riffusion и позволяет создавать треки в разных стилях, имитировать звучание конкретных инструментов (пианино, гитары, саксофона).

Также диффузионная модель используется, когда нужно написать продолжение существующего трека, ремикс двух разных стилей, сгенерировать длительную композицию, создать фоновую музыку для видео, когда трек генерируется под настроение ролика и не нужно искать подходящую композицию в библиотеках.

Диффузные модели показывают выдающиеся результаты в генерации длинных, структурированных композиций с ясной формой. Они лучше понимают глобальную архитектуру произведения. Например, AudioLDM, MusicGen от Meta — системы, генерирующие высококачественный аудио по текстовому описанию: «грустная фортепианная мелодия в стиле Эрика Сати, темп 60 BPM».

Проблемы и вызовы ближайшего времени

Большинство моделей блестяще справляются с фразами длиной 4-8 тактов, но создание 20-минутной симфонии с логичным развитием, контрастами и кульминацией все еще не под силу алгоритмам. Эмоциональная глубина и интенциональность музыке задача ближайшего будущего. Алгоритм может имитировать внешние признаки «грустной» музыки (минор, медленный темп), но не переживает эмоцию. Вопрос: может ли музыка без интенциональности автора быть искусством?

Эстетические ошибки, придающие музыке человечность, не доступны ИИ. Человеческий композитор вкладывает в музыку личный опыт, исторический контекст, аллюзии. ИИ лишен этого культурного багажа, что делает его композиции «стилистически правильными, но экзистенциально пустыми», как выразился критик Джон Патрик Шэнли.

Как объективно оценить качество сгенерированной музыки? Технические метрики могут ли отражать художественную ценность?

Современные алгоритмы генерации музыки достигли уровня, где их невозможно отличить от человеческой композиции в слепых тестах на коротких фрагментах. Но главный прорыв впереди - создание ИИ, который понимает музыку как коммуникацию, а не как набор паттернов. Самые интересные произведения ближайшего будущего родятся не в противостоянии человека и машины, а в их симбиозе, когда человеческая интуиция встречается с вычислительной мощностью алгоритмов, способных анализировать все когда-либо созданные мелодии.

Мы переживаем момент, когда технология учится не только анализировать, но и создавать искусство. И в этом зеркале лучше видно, что же такое человеческое творчество и возможно ли, свести его к предсказанию следующей ноты.