🖥 Премию Тьюринга получили создатели метода обучения с подкреплением Премию Тьюринга, которую иногда называют «Нобелевской премией по информатике», на прошлой неделе присудили Эндрю Барто и Ричарду Саттону. Они разделят между собой приз в $1 млн. Ученые стояли у истоков обучения с подкреплением — метода, лежащего в основе практически любой современной большой языковой модели. В 1984 году Саттон под руководством Барто защитил докторскую диссертацию на тему обучения с подкреплением в Массачусетском университете в Амхерсте. Они считались эксцентричными учеными, пытавшимися заставить машину учиться на собственном опыте, черпая вдохновение в исследованиях в области биологии и психологии, включая эксперименты Эдварда Торндайка, которые показали, что поведение животных формируется под влиянием стимулов. В 2016 году обучение с подкреплением, основы которого описали Барто и Саттон, получило всеобщую известность благодаря Alpha — программе, самостоятельно научившейся играть в го лучше любого
🖥 Премию Тьюринга получили создатели метода обучения с подкреплением
5 мая 20255 мая 2025
9
1 мин