Обучение с подкреплением: от экспериментов с кошками до современных технологий
Обучение с подкреплением (Reinforcement Learning, RL) — это подход к машинному обучению, который во многом напоминает процесс формирования поведения у животных, стремящихся получить награду. Ещё в начале XX века американский психолог Эдвард Торндайк (1874–1949) проводил эксперименты, демонстрирующие этот принцип. Он помещал кошек в специальные клетки, из которых можно было выбраться, только нажав на рычаг. Сначала кошки хаотично двигались внутри клетки, но случайно наступив на рычаг и открыв дверцу, они получали вознаграждение — например, еду...