Введение.
Уравнение Беллмана предлагает метод решения стохастических оптимальных задач управления, подобно Марковскому процессу принятия решений.
Марковский процесс принятия решений (МППР) представляет собой дискретный процесс стохастического контроля времени. На каждом этапе процесс находится в том или ином штате, и лицо, принимающее решения, может выбрать действие в этом штате.
Вероятность перехода процесса в новое состояние зависит от выбранного агентом действия, характеризующегося переходной функцией "государства".
Учитывая состояние и действие, переходы "государства" условно независимы от всех предыдущих состояний и действий.
Марковская собственность держит: недавнее прошлое и недалекое прошлое влияет на следующее государство.
Главная цель ПСР состоит в том, чтобы найти функцию политики или действия, которые агент предпринимает в данном государстве. Желанием является выбор политики, которая максимизирует кумулятивную функцию случайных вознаграждений, обычно ожидаемую дисконтированную сумму за потенциально бесконечный горизонт (называемую бесконечным горизонтом MDP).
Это влечет за собой умножение дисконтного коэффициента на вознаграждение, которое является функцией государства, суммируемой за бесконечный горизонт. MDP также можно рассматривать как стохастическую игру для одного игрока. Если вероятность или выгоды неизвестны, это становится проблемой укрепления обучения.
Переходная функция.
На высоком уровне существует несколько различных способов нахождения оптимальной функции стоимости и/или оптимальной политики. Если переходная функция состояния, характеризуется вероятностью перехода от состояния к состоянию при выполнении действия.
А если наградная функция, которая определяет, сколько награды получается в состоянии, то алгоритмы, которые можно смоделировать, называются модельными алгоритмами. Они могут быть использованы для получения оптимальной функции стоимости и/или оптимальной политики. Следует отметить итерацию значений и итерацию политики, которые происходят из динамического программирования, а не из RL. Эти два подхода выходят за рамки методологии, но их названия приведены для полноты. Если модель процесса, а именно функция перехода и функция вознаграждения, неизвестны ex ante, то это становится проблемой ОД.
На языке теории управления необходимо будет изучить процесс адаптации функции оптимального значения и/или оптимальной политики.
Заметные алгоритмы включают: обучение временным различиям, которое по отдельности используется для обучения ценностным функциям; адаптивную итерационную критику, которая представляет собой алгоритм итерации адаптивной политики, используемый для приближения модели функции ценности по TD, где ошибка TD используется для агента и критика; и наиболее актуальной для данной работы является Q-learning, которая позволяет параллельно использовать ценностные функции и оптимизацию политики.
В процессе Q обучения предпринимаются действия, и, учитывая неопределенность в отношении вероятности перехода или вознаграждения, агент продолжает действовать оптимально, учитывая текущую политику. Опыт, полученный в процессе обучения, следующий: учитывая текущее состояние и принятые меры, возникает новое состояние. Методы Q-образования изучают эту оптимальную Q-функцию, итеративно сводя к минимуму остаток Беллмана.
Оптимальная политика действует таким образом: Глубокое Q-обучение использует нейронную сеть, называемую глубокой Q-сетью (DQN), для приближения функции Q. Этот наивный подход имеет ряд серьезных недостатков, а именно, функция Q может расходиться при использовании нелинейного аппроксиматора функций, такого как нейронная сеть. Решения, предложенные Mnih, используют метод так называемого повторения опыта, который "рандомизирует по данным, удаляет корреляции в последовательности наблюдений и сглаживает изменения в распределении данных". Mnih также предлагает итеративное обновление, которое корректирует значения действий в соответствии с целевыми значениями, которые обновляются только периодически.
Фактически, параметры сети определяются путем применения обновлений стохастического градиентного спуска (СГС) в отношении следующей функции потерь, где находится политика разведки, и является параметром целевой Q-сети, который фиксируется во время градиентного вычисления. Разведка может быть выполнена методом эпсилон-грейдов или методом Больцмановского отбора проб.
Для стабилизации и улучшения обучения используются дополнительные стандартные методы, такие как упомянутые выше и Deep Double Q-learning .
В языке теории игр агент исследует потенциальные равновесия подигры и находит соответствующие политические функции для приблизительно решения бесконечного горизонта MDP через уравнение Беллмана, практически через DQN.
Долгосрочная краткосрочная память.
Повторяющиеся сети сталкиваются с серьезной проблемой, вызванной сложностью оценки градиентов. При размножении во времени, рецидив проходит через умножение в повторении. Это может привести к уменьшению или увеличению количества эффектов, соответственно, к исчезновению или взрыву проблемы градиента. Для решения этой проблемы Hochreiter и Schmidhuber разработали сети долговременной краткосрочной памяти (LSTM).
Модуль LSTM предназначен для защиты информации в ячейках памяти, отделенных и защищенных от стандартного потока информации повторяющейся сети. Для прохождения, считывания или запоминания информации необходимо открыть или закрыть входные и выходные затворы, а также забыть о них. Этот процесс похож на запуск нейронов.
Входные и выходные затворы управляют потоками информации, поступающей в ячейку и выходящей из нее. LSTM лучше усваивают долгосрочные зависимости в данных и быстро приспосабливаются к ним. LSTM - это эффективная комбинация с функцией softmax.
Функция softmax, обобщающая логистическую функцию, сдавливает произвольные реальные значения до значений в диапазоне (0,1) и суммирует их до 1, что делает функцию softmax эффективной при представлении категориального распределения.
При генерации музыки функция softmax принимает в качестве входа сетевой выход LSTM и выводит значения вероятности, присвоенные различным нотам, доступным для воспроизведения.
Ворота LSTM модулируются по дифференцированному весу, что позволяет осуществлять размножение во времени. Перекрестная энтропия Softmax используется для обучения модели типичным методам нейросетевого обучения. Песни, написанные с использованием только подхода, основанного на глубоком изучении, не имеют глобальной структуры. Подход RL может улучшить эту модель.
Заключение.
Одной из основных проблем при моделировании музыки является выбор способа представления данных.
Возможными представлениями являются сигнал, преобразованный сигнал, MIDI, текст и т.д.
В общем, музыкальный контент для компьютеров сначала представляется в виде аудиосигнала.
Это может быть необработанное аудио (форма волны) или аудио спектр, обрабатываемый как преобразование Фурье. Важной проблемой является конечный пункт назначения создаваемого музыкального контента.
Назначением формата может быть человеческий пользователь, в этом случае выходные данные должны быть удобочитаемыми, например, музыкальная партитура.
В случае данной статьи конечным пунктом назначения является компьютер.
Окончательный формат вывода, таким образом, читается компьютером, который в данном случае представляет собой MIDI-файл (цифровой интерфейс музыкального инструмента).
MIDI-представление было выбрано потому, что оно предлагает особенно богатое представление в двух смыслах: сначала оно несет в себе характеристики музыки в метаданных файла, как временные шаги.
Во-вторых, это общее цифровое представление, позволяющее получить доступ к свободно и широко доступным данным.
В этой модели оптимизированы следующие критерии: удобочитаемость компьютера, информация о характеристиках музыки, доступность для широкого спектра произведений Баха.
Более подробно о каждом из этих вариантов будет рассказано в следующей статье...
Спасибо за внимание!
Оставляю ссылку на предыдущий материал: https://zen.yandex.ru/media/id/5dc9a91568e68b209078723b/istoriia-izucheniia-glubinnogo-obucheniia-otnosiascegosia-k-sozdaniiu-muzyki-5deaa85f3d008800b15faf07