Найти в Дзене
ЦВК

развитие и применение нейронных сетей на примере алгоритма AlphaZero

Все началось в далеком 2016 году, с дебютом алгоритма AlphaGo, которая обыграла одного из сильнейших игроков Go со счетом 4:1. Программа смогла изучить и выработать свою стратегию против человека.
Осенью 2017 был сделан огромный скачок вперед, программа AlphaGo Zero смогла обыграть своего предшественника со счетом 100:0. Такой результат был достигнут благодаря самообучению. Изначально алгоритм начинал с "пустого состояния" и постепенно находил алгоритмы, которые были эффективнее предыдущих.
Всего через 48 дней алгоритм модернизировали и адаптировали под любую игру с идеальной информацией ( состояние игры известно обоим игрокам в любое время ). Менее чем за сутки проходит процесс обучения от первой игры до уровня лучших игроков. Так и появился AlphaZero. Всё, что нужно было, – изменить файл, описывающий механику игры и настройку гипер-параметров, относящихся к нейронной сети и поиску дерева Монте-Карло.
Если бы AlphaZero использовал сверхсложные алгоритмы, понятные только несколь

Все началось в далеком 2016 году, с дебютом алгоритма AlphaGo, которая обыграла одного из сильнейших игроков Go со счетом 4:1. Программа смогла изучить и выработать свою стратегию против человека.

Осенью 2017 был сделан огромный скачок вперед, программа AlphaGo Zero смогла обыграть своего предшественника со счетом 100:0. Такой результат был достигнут благодаря самообучению. Изначально алгоритм начинал с "пустого состояния" и постепенно находил алгоритмы, которые были эффективнее предыдущих.

-2

Всего через 48 дней алгоритм модернизировали и адаптировали под любую игру с идеальной информацией ( состояние игры известно обоим игрокам в любое время ). Менее чем за сутки проходит процесс обучения от первой игры до уровня лучших игроков. Так и появился AlphaZero. Всё, что нужно было, – изменить файл, описывающий механику игры и настройку гипер-параметров, относящихся к нейронной сети и поиску дерева Монте-Карло.

-3


Если бы AlphaZero использовал сверхсложные алгоритмы, понятные только нескольким людям в мире, это всё равно было бы невероятным достижением. Что делает его необычным, так это то, что многие идеи в статье гораздо менее сложны, чем предыдущие. В его основе лежит следующая простая мантра для обучения:
"Мысленно перебирайте возможные сценарии, отдавая приоритет перспективным путям, а также учитывая, как другие будут реагировать на ваши действия и продолжать исследовать неизвестное. Попав в незнакомое положение, оцените, насколько благоприятным вы его считаете. Пройдитесь по предыдущим шагам, чтобы понять, что именно привело вас в текущее положение. После того, как вы закончили перебирать возможные ходы, действуйте такими методами, которые вы изучили лучше всего. В конце партии вернитесь и найдите те моменты, когда вы недооценили важность будущих позиций. Обновите своё понимание игры соответствующим образом."
Разве это не похоже на то, как вы учитесь играть в игры? Когда вы делаете плохой ход, это происходит либо потому, что вы недооценили важность будущих позиций, либо потому, что вы неправильно оценили вероятность того, что ваш противник сыграет определённый ход. Это именно те два аспекта игрового процесса, которым обучается AlphaZero.