Найти в Дзене
aisimple.ru

🖥 Премию Тьюринга получили создатели метода обучения с подкреплением

🖥 Премию Тьюринга получили создатели метода обучения с подкреплением Премию Тьюринга, которую иногда называют «Нобелевской премией по информатике», на прошлой неделе присудили Эндрю Барто и Ричарду Саттону. Они разделят между собой приз в $1 млн. Ученые стояли у истоков обучения с подкреплением — метода, лежащего в основе практически любой современной большой языковой модели. В 1984 году Саттон под руководством Барто защитил докторскую диссертацию на тему обучения с подкреплением в Массачусетском университете в Амхерсте. Они считались эксцентричными учеными, пытавшимися заставить машину учиться на собственном опыте, черпая вдохновение в исследованиях в области биологии и психологии, включая эксперименты Эдварда Торндайка, которые показали, что поведение животных формируется под влиянием стимулов. В 2016 году обучение с подкреплением, основы которого описали Барто и Саттон, получило всеобщую известность благодаря Alpha — программе, самостоятельно научившейся играть в го лучше любого

🖥 Премию Тьюринга получили создатели метода обучения с подкреплением

Премию Тьюринга, которую иногда называют «Нобелевской премией по информатике», на прошлой неделе присудили Эндрю Барто и Ричарду Саттону. Они разделят между собой приз в $1 млн. Ученые стояли у истоков обучения с подкреплением — метода, лежащего в основе практически любой современной большой языковой модели.

В 1984 году Саттон под руководством Барто защитил докторскую диссертацию на тему обучения с подкреплением в Массачусетском университете в Амхерсте. Они считались эксцентричными учеными, пытавшимися заставить машину учиться на собственном опыте, черпая вдохновение в исследованиях в области биологии и психологии, включая эксперименты Эдварда Торндайка, которые показали, что поведение животных формируется под влиянием стимулов.

В 2016 году обучение с подкреплением, основы которого описали Барто и Саттон, получило всеобщую известность благодаря Alpha — программе, самостоятельно научившейся играть в го лучше любого человека.

📈 Сегодня обучение с подкреплением применяется в рекламе, оптимизации энергопотребления, финансах и проектировании чипов. Именно оно стало ключевым катализатором стремительного прогресса больших языковых моделей — с помощью него обучают рассуждающие модели, создают ИИ-агентов.

Однако Саттон подчеркивает: методы, используемые сегодня в LLM, не полностью отражают их с Барто изначальную концепцию. Тот же ChatGPT при обучении в качестве целей использует те, что устанавливают люди, тогда как учеными предполагалось полностью самостоятельное самообучение.

🏆 Премию Тьюринга не первый раз вручают за прогресс в ИИ. В 2018-м «за прорывы, сделавшие нейросети краеугольным камнем в вычислительной технике» награды удостоились Ян Лекун, Йошуа Бенжио и Джеффри Хинтон, который в прошлом году разделил с Джоном Хопфилдом «Нобелевку» по физике за вклад в развитие ИИ.

Подпишись👉@aisimple