Модель, описанная до сих пор, учитывает прошлую информацию, чтобы в будущем можно было ее спроектировать. Описанное решение заключается в использовании сети LSTM. Существуют ограничения на использование модели RNN...
Введение. Уравнение Беллмана предлагает метод решения стохастических оптимальных задач управления, подобно Марковскому процессу принятия решений. Марковский процесс принятия решений (МППР) представляет собой дискретный процесс стохастического контроля времени. На каждом этапе процесс находится в том или ином штате, и лицо, принимающее решения, может выбрать действие в этом штате. Вероятность перехода процесса в новое состояние зависит от выбранного агентом действия, характеризующегося переходной функцией "государства"...