Ассоциация вычислительной техники наградила Эндрю Г. Барто и Ричарда С. Саттона за фундаментальные разработки в области обучения с подкреплением. Их исследования заложили основу одного из ключевых направлений искусственного интеллекта. Этот метод позволяет интеллектуальным системам обучаться на основе вознаграждений, подобно тому, как дрессируют животных. Барто и Саттон первыми сформулировали его как математическую модель, основанную на процессах принятия решений Маркова, где агент учится в неопределенной среде, пытаясь получить максимальное долгосрочное вознаграждение. Ученые разработали алгоритм временных различий, методы градиента политики и нейросетевые подходы для улучшения прогнозов. Их книга «Обучение с подкреплением: Введение» (Reinforcement Learning: An Introduction, 1998) стала ключевым руководством, процитированным более 75 000 раз. Обучение с подкреплением стало основой множества прорывов в ИИ. В 2016 году программа AlphaGo победила лучших игроков в го, а технология RLHF ис
Премия Тьюринга, «нобелевка» по информатике, в этом году вручена за обучение ИИ
7 марта 20257 мар 2025
55
1 мин