Обучение с подкреплением (Reinforcement Learning, RL) — это подход к машинному обучению, который во многом напоминает процесс формирования поведения у животных, стремящихся получить награду. Ещё в начале XX века американский психолог Эдвард Торндайк (1874–1949) проводил эксперименты, демонстрирующие этот принцип. Он помещал кошек в специальные клетки, из которых можно было выбраться, только нажав на рычаг. Сначала кошки хаотично двигались внутри клетки, но случайно наступив на рычаг и открыв дверцу, они получали вознаграждение — например, еду. Со временем животные начинали ассоциировать нажатие на рычаг с наградой, что позволяло им всё быстрее покидать клетку. В конечном итоге кошки научились сразу нажимать на рычаг, едва оказавшись внутри. Этот принцип лёг в основу обучения с подкреплением, которое в середине XX века стало активно развиваться в области искусственного интеллекта. В 1951 году учёный-когнитивист Марвин Мински (1927–2016) вместе со своим студентом Дином Эдмундсом создали
Обучение с подкреплением: от экспериментов с кошками до современных технологий
5 апреля 20255 апр 2025
8
3 мин