Обучение с подкреплением отлично подходит для задач с четко определенной функцией вознаграждения, что подтверждается успешным опытом AlphaZero для Go, OpenAI Five для Dota и AlphaStar для StarCraft. Но на практике четко определить функцию вознаграждения не всегда возможно. Например, в простом кейсе уборки комнаты найденная под кроватью старая визитка или использованный билет на концерт могут представлять ценность и не должны быть выкинуты как мусор. Впрочем, даже если задать четкие критерии оценки анализируемого объекта, преобразовать их в вознаграждение не так просто: если вы даете агенту подкрепляющее его поведение вознаграждение каждый раз при сборе мусора, он может выбросить его назад, чтобы снова собрать и получить подкрепление. Предупредить такое поведение AI-системы можно, формируя функцию вознаграждения на основе отзывов о поведении агента. Но этот подход требует много ресурсов: в частности, для обучения Deep RL-модели Cheetah от OpenAI Gym и MujoCo нужно около 700+ сравнений
✨Обучение с подкреплением (RL, Reinforcement learning)
4 апреля 20224 апр 2022
2444
2 мин