Все началось в далеком 2016 году, с дебютом алгоритма AlphaGo, которая обыграла одного из сильнейших игроков Go со счетом 4:1. Программа смогла изучить и выработать свою стратегию против человека.
Осенью 2017 был сделан огромный скачок вперед, программа AlphaGo Zero смогла обыграть своего предшественника со счетом 100:0. Такой результат был достигнут благодаря самообучению. Изначально алгоритм начинал с "пустого состояния" и постепенно находил алгоритмы, которые были эффективнее предыдущих.
Всего через 48 дней алгоритм модернизировали и адаптировали под любую игру с идеальной информацией ( состояние игры известно обоим игрокам в любое время ). Менее чем за сутки проходит процесс обучения от первой игры до уровня лучших игроков. Так и появился AlphaZero. Всё, что нужно было, – изменить файл, описывающий механику игры и настройку гипер-параметров, относящихся к нейронной сети и поиску дерева Монте-Карло.
Если бы AlphaZero использовал сверхсложные алгоритмы, понятные только несколь