9,5K подписчиков
Обучение с подкреплением отлично подходит для задач с четко определенной функцией вознаграждения, что подтверждается успешным опытом AlphaZero для Go, OpenAI Five для Dota и AlphaStar для StarCraft. Но на практике четко определить функцию вознаграждения не всегда возможно. Например, в простом кейсе уборки комнаты найденная под кроватью старая визитка или использованный билет на концерт могут представлять ценность и не должны быть выкинуты как мусор. Впрочем, даже если задать четкие критерии оценки...
2 года назад
606 подписчиков
Обучение с подкреплением (RL) – подход, который находится между Контролируемым обучением (Supervised Learning) и Обучением без учителя (Unsupervised Learning). Оно не контролируется строго, поскольку не полагается только на набор помеченных данных обучения, но и не является обучением без учителя, потому что есть максимизируемое вознаграждение. Модели (Model) предстоит найти «правильные» действия в различных ситуациях для достижения своей цели. Обучение с подкреплением – это наука о принятии решений...
3 года назад