Найти в Дзене
Для студента

Раздел 1. Что такое нейро сеть? Тема 1.6. Нейросети и музыка.

Оглавление

В последние годы нейронные сети все чаще используются в творческих областях. Они успешно создают тексты, изображения, и теперь пришло время для музыки.

Эксперты предсказывают, что искусственный интеллект упростит работу музыкантов и создателей спецэффектов, однако компании боятся предоставлять доступ к сервисам, обученным на реальной музыке. Рассказываем о текущих тенденциях в индустрии и о том, где уже сейчас можно попробовать создать музыкальный трек с помощью ИИ.

Как нейросети создают музыку:

Искусственные нейронные сети в области музыки обучаются на огромном объеме аудиофайлов, что позволяет им создавать более качественные звуковые композиции. На начальных этапах результат может быть не идеальным, но с увеличением обучения качество звука значительно улучшается.

Путем изучения различных музыкальных шаблонов нейронная сеть способна создавать сходные мелодии. Однако итоговый результат в значительной степени зависит от того, на каком объеме и качестве данных была обучена нейросеть - если обучать ИИ только на песнях Элвиса Пресли, то и его генерируемые композиции будут напоминать его стиль.

Генерация нот.

Генерация нот при помощи нейросетей обычно представляет собой создание музыкальной композиции в виде последовательности символов. Это позволяет создать партитуру, которая может быть воспроизведена. Однако такой подход имеет свои ограничения, поскольку нейросеть создает только ноты, не учитывая другие аспекты музыкального произведения, такие как интонации, тембры и тонкости исполнения, которые играют важную роль в музыке.

-2

Генерация музыки.

Генерация аудиосигнала не ограничена шаблонами символов: эти алгоритмы могут создавать разнообразные звуки, вокал, аудиоэффекты и переходы, а не только последовательности нот. Однако для обучения модели требуется большая вычислительная мощность.

Проблема заключается в том, что музыка представляет собой длинные последовательности данных. Например, четырехминутная песня в студийном качестве состоит из миллионов значений. Из-за этого разработчики столкнулись с трудностями в создании нейронных сетей, способных генерировать музыку "с нуля".

Что «музыкальные» нейросети умели раньше:

Новые инструменты позволяют генерировать музыку по определенным шаблонам, а также разделять дорожки в треках с помощью нейросетей. Это упрощает создание музыкальных композиций, ремиксов и мэшапов, не требуя глубоких знаний в области музыкального творчества.

Однако контроля над самим результатом генерации в таких сервисах мало — любой запрос задать не получится, приходится работать с готовыми пресетами.

Разделять дорожки. С помощью нейросетей также научились чисто разделять дорожки в треках: например, чтобы удалить вокал или переместить бас из одной песни в другую. Это упростило создание ремиксов и мэшапов.

Раньше приходилось получать доступ к исходникам треков или глушить частоты, а теперь это делается через программы, например Serato Stems 3.0 или Аudioshake. Эти инструменты помогают диджеям и продюсерам, работающим с семплами.

Использование искусственного интеллекта для создания бесконечных музыкальных фонов становится все более популярным. Например, приложение Endel генерирует звуковые ландшафты в реальном времени, чтобы помочь слушателям сосредоточиться на работе или учебе. Подобный сервис представил и "Яндекс". Такая фоновая музыка часто имеет стиль эмбиент или лоу-фай хип-хоп.

Что «музыкальные» нейросети умеют теперь

В конце января исследователи из Google представили нейросеть MusicLM, которая может генерировать аудио продолжительностью до пяти минут.

Модель генерирует аудиосигнал напрямую. Алгоритм сжимает аудио, отбрасывая биты информации, не имеющие отношения к восприятию музыки. Затем звук генерируется в этом сжатом пространстве, а на выходе перекодируется в нормальное аудио.

MusicLM обучена на 5500 парах аудио с соответствующими текстовыми описаниями. Всего нейросети «скормили» 280 000 часов аудиозаписей. ИИ нельзя попробовать самостоятельно, но компания представила примеры генерации.

Генерировать музыку по описанию — основная функция MusicLM. Она создает треки как по короткому запросу, например «мелодичное техно» или «клуб в 80-х», так и по целому абзацу описания текста.

К примеру, MusicLM создала аудио по такому текстовому описанию: «Саундтрек аркады в быстром темпе и с бодрым ритмом с запоминающимся рифом электрогитары. Музыка повторяется и легко запоминается, но в ней присутствуют неожиданные звуки — удары тарелок или барабанная дробь».

Это уже можно попробовать?
Google не планирует открывать публичный доступ к MusicLM из-за возможных проблем с авторским правом — ведь ИИ обучали на музыке, принадлежащей реальным исполнителям. Нейросети, которые генерируют картинки, уже столкнулись с такой проблемой: против Midjourney и Stable Diffusion подали иски художники, на чьих работах обучили эти сервисы. Однако компания выпустила базу данных, на которой разработчики смогут обучить свои нейросети.

Нейросеть также может создавать музыку по скрипту: разработчики сгенерировали аудио, которое начинается как «медитация», переходит к «пробуждению», а затем к «пробежке». Так можно описать любую историю, а нейросеть сделает переходы в указанных тайм-кодах.

Генерировать музыку по вокалу может сервис SingSong, который компания Google создала на основе MusicLM. Он работает как караоке наоборот: обычно люди поют под трек, но в этом случае песня создается на основе голоса.

Разработчики говорят, что сервис позволит любому человеку, умеющему петь, создавать новую музыку с богатым инструментарием. Сам алгоритм пока нельзя попробовать, но можно послушать примеры генерации.

Генерировать звуковые эффекты умеет другая нейросеть AudioLDM, использующая модель скрытой диффузии. На ее основе работает Stable Diffusion. Текстовый запрос кодируется предварительно обученной языковой моделью. В зависимости от того, что указано в запросе, модель генерирует сжатый сигнал с помощью диффузионного генератора, который затем преобразуется в звуковую волну.

Нейросеть нельзя попробовать самостоятельно, но компания представила примеры генерации. Так, AudioLDM сгенерировала голос человека под водой, сражение космических кораблей, мяуканье кота, звук проезжающего автомобиля.

Какие «музыкальные» нейросети можно попробовать уже сейчас

Большинство сервисов пока не могут генерировать музыку по текстовому запросу. Google и разработчики AudioLDM не планируют открывать доступ к своим моделям, а OpenAI и другие разработчики выкладывают код на GitHub, который не смогут попробовать люди без знаний программирования. Также очень хорошие музыкальные ИИ: Suno AI и Moises.