Найти тему
Нота.

История изучения глубинного обучения, относящегося к созданию музыки.

Оглавление

Модель, описанная до сих пор, учитывает прошлую информацию, чтобы в будущем можно было ее спроектировать.

Описанное решение заключается в использовании сети LSTM.

Существуют ограничения на использование модели RNN. Как было сказано в первой статье, ссылку на которую оставлю в конце данной, существенной особенностью алгоритмического подхода к музыке является понимание подструктуры, лежащей в основе произведения, с тем чтобы оно выполнялось связно.

Для этого необходимо помнить о прошлых деталях и обеспечивать глобальную согласованность действий. RNN решает эту проблему в целом: при проектировании RNN генерирует следующую заметку, отбирая образцы из распределения выпускаемой модели и создавая следующую заметку.

Однако эта форма модели страдает от чрезмерного повторения одной и той же ноты или производит последовательности нот, которые не имеют глобальной согласованной структуры. Поэтому эта работа может звучать без общей картины.

ссылка на фото: pixabay.com/ru/illustrations/фон-радуга-звук-волна-волн-313415/
ссылка на фото: pixabay.com/ru/illustrations/фон-радуга-звук-волна-волн-313415/

Музыкальная новизна.

Следующая задача состоит в том, чтобы понять подструктуру, лежащую в ее основе, с тем чтобы она функционировала согласованно. Ядро в изогнутом стиле предлагает больший контекст, необходимый для музыкальной когерентности, но этого недостаточно. Третьим ненужным, но достаточным условием для создания музыки является эстетическая ценность, повышенная согласованность и новизна.

Это третье условие трудно смоделировать из-за субъективной природы того, что делает песню звучащей "хорошо".

Способ решения связанной с этим проблемы заключается в том, чтобы разрешить проведение геологоразведочных работ. Вместо того, чтобы отбирать образцы из статического распределения знаний, как в случае с подходом чисто глубокого изучения, можно использовать алгоритм усиленного изучения (УИ) в качестве класса Марковских процессов принятия решений (МПП). СПР представляет собой систему принятия решений, в которой результаты частично произвольны и частично находятся под контролем лица, принимающего решения.

На каждом этапе агент может посетить ограниченное число штатов.

От каждого государства есть последующие состояния, которые могут быть достигнуты с помощью действий. Когда штат посещают, награда собирается. Положительные вознаграждения представляют собой прирост, а отрицательные - наказание. Стоимость данного состояния - это усредненное будущее вознаграждение, которое может быть накоплено путем выбора действий из определенного состояния. Действия выбираются в соответствии с политикой, которая также может меняться. Целью алгоритма RL является выбор действий, которые максимизируют ожидаемое совокупное вознаграждение (доходность) агента.

Подход будет более подробно описан в статье, посвященной методологии.

Музыкальный контекст.

В контексте музыки, необходимые и достаточные условия, описанные выше, объединяются для создания последовательной задачи обучения и генерирования. RL используется для наложения структуры на би-осевой LSTM с коволуальным ядром, обученным работе с данными.

Функция вознаграждения представляет собой сочетание вознаграждений, связанных с соблюдением жестко закодированных правил теории музыки, и вознаграждения, связанного с вероятностью совершения определенного действия, усвоенного сетью LSTM.

Это позволяет точно представить вероятностное распределение источников, полученное из музыки Баха, при сохранении музыкальных конструкций - высоты тона, гармонии и т.д. - связать образцы в разумные, эвристические музыкальные правила. Такое сочетание вознаграждения, полученного из данных и вознаграждения, связанного с конкретными задачами, в сочетании с общей функцией вознаграждения обеспечивает лучшие показатели, адаптированные к конкретной задаче создания музыки.

В отличие от предыдущих подходов, модель в основном опирается на информацию, полученную из данных, в которых компонент RL улучшает структуру выпуска за счет введения музыкальных, структурных правил.

Вдохновленный би-аксиальной моделью LSTM Дэниела Джонсона и моделью обучения усилению Наташи Жак, я описываю глубокую нейронную сеть с усиливающей архитектурой обучения, которая генерирует музыку. Описанная вероятностная модель представляет собой сложенную повторяющуюся сеть со структурой, использующей ядро в виде свернутого ядра, усовершенствованное компонентом RL.

Глубокий Q-Learning.

Песня может быть дискретизирована и интерпретирована как серия конечных нот, объединенных в единую песню.

Учитывая состояние окружающей среды в данный момент времени, агент предпринимает действия в соответствии со своей политикой, получает вознаграждение, а окружающая среда переходит в новое состояние.

Целью агента является максимизация вознаграждения за последовательность действий с применением коэффициента дисконтирования к будущим вознаграждениям. Осмысление этой проблемы в этих рамках позволяет использовать подход, основанный на усилении обучения и динамичном программировании. Динамическое программирование и подход RL разделяют проблему многопериодного планирования, как в случае с музыкой, на более простые подпроблемы в разные моменты времени.

Подход LSTM решает эту проблему и кодирует эту информацию в механизме "забыть и ввести", который будет описан в других статьях. Необходимая информация о текущей ситуации, необходимая для принятия "правильного" решения, которое максимизирует ожидаемое вознаграждение, достигается с помощью ЛР (RL) или динамического подхода к программированию. В целом, методы ЛР используются для решения двух взаимосвязанных задач: Проблемы прогнозирования и управления.

В прогнозных задачах RL используется для изучения функции значения для последующей политики. В конце обучения функция выученной ценности описывает для каждого посещенного состояния, сколько будущего вознаграждения можно ожидать при выполнении действий, начиная с этого состояния.

Проблемы с контролем делают этот шаг вперед.

Взаимодействие с окружающей средой дает шанс найти политику, которая максимизирует вознаграждение. Путешествуя через пространство государства, агент изучает оптимальную политику/

Правило, которое определяет решение, исходя из имеющейся информации в текущем состоянии.

После достаточного количества поездок агент получает оптимальную политику, позволяющую планировать действия и оптимальный контроль. Если проблема управления переопределяется как прогнозирующий тип управления, то решение проблемы управления также требует решения проблемы прогнозирования.

По мнению Ричарда Беллмана:

"оптимальная политика заключается в том, что какими бы ни были первоначальное состояние и первоначальное решение, остальные решения должны представлять собой оптимальную политику по отношению к государству, вытекающую из первого решения".

Проблемы, которые могут быть разделены таким образом, имеют в мире вычислительной техники "оптимальную субструктуру", которая аналогична идее "идеальное равновесие подигры" и теории игр. Известно, что оптимальная детерминированная политика удовлетворяет уравнению оптимальности Беллмана.

Где функция Q политики?

Уравнение Беллмана показывает, что задача динамической оптимизации в дискретное время может быть выражена рекурсивно, связывая функцию значения в одном периоде относительно другого. Оптимальная политика за последний период времени заранее указывается в качестве функции от значения переменной состояния на тот момент времени. Следующая оптимальная функция объектива значения может быть затем выражена в терминах этой переменной состояния.

Это продолжается, максимизируя сумму временной специфической объективной функции периода.
ссылка на фото: pixabay.com/ru/photos/фейдер-аналоговый-звуковая-студия-393041/
ссылка на фото: pixabay.com/ru/photos/фейдер-аналоговый-звуковая-студия-393041/

Заключение.

Используя рекурсию, можно вывести правило принятия решения о первом периоде как функцию значения исходной переменной состояния, оптимизируя сумму объективных функций первого периода и одного шага вперед, который фиксирует значение для всех последующих периодов. Поэтому решения, принимаемые в каждом периоде, принимаются с учетом того, что все будущие решения будут приниматься оптимальным образом. Практически, поскольку уравнение Беллмана является функциональным уравнением, решающим уравнение Беллмана, оно разрешает неизвестную функцию значения.

Значение функции является функцией государства и характеризует наилучшее возможное значение цели. При вычислении функции значения также найдена функция, описывающая оптимальное действие как функцию состояния, называемая функцией политики.

Продолжение в следующей публикации...

Благодарю за проявленный интерес!

Оставляю ссылку на предыдущую статью: https://zen.yandex.ru/media/id/5dc9a91568e68b209078723b/sozdanie-muzyki-s-ispolzovaniem-podhoda-osnovannogo-na-uglublennom-obuchenii-5deaa73634808200b10daee0

Наука
7 млн интересуются