Эндрю Барто и Ричард Саттон стали лауреатами Премии Тьюринга — самой престижной награды в области информатики, которую часто называют «Нобелевкой» для программистов. Они получили награду за разработку и популяризацию метода обучения с подкреплением — одного из ключевых направлений в машинном обучении. Призовой фонд — $1 млн. Что такое обучение с подкреплением? Этот метод основан на принципе «проб и ошибок»: система выполняет действия, получает обратную связь и постепенно учится принимать оптимальные решения. Такой подход используется в языковых моделях, управлении финансами, энергопотреблением и даже проектировании микрочипов. Как всё начиналось? Ричард Саттон впервые изложил концепцию обучения с подкреплением в своей докторской диссертации 1984 года, которую он писал под руководством Эндрю Барто. Тогда их идея казалась слишком смелой — учёные вдохновлялись экспериментами биолога Эдварда Торндайка, который изучал поведение животных. Прорыв произошёл в 2016 году, когда алгоритм Al
Премия Тьюринга за обучение с подкреплением: кто и за что получил «Нобелевку» по информатике?
17 марта 202517 мар 2025
3
1 мин