Форматы онлайн-турниров на шахматном сайте lichess.org делятся на арены и швейцарки. В формате арены нет туров - шахматист начинает следующую партию сразу, как только завершит предыдущую. Чем больше партий он сыграет за отведенное на турнир время, тем больше может набрать очков. Однако на личесс также есть берсерки, правильное использовании которых значительно повышает шансы на победу в турнире. Что такое берсерк в шахматах и когда лучше всего использовать эту функцию? На этот вопрос попытался ответить пользователь lichess под ником jmviz, который разбирается в моделировании.
Цель арены на личесс состоит в том, чтобы набрать как можно больше очков. За победу присуждается 2 очка, за ничью — 1, за поражение — 0. Если ваша победная серия состоит из 2 и более игр, за каждую последующую победу вы зарабатываете в два раза больше очков. Таким образом, за победу на серии дается 4 очка вместо двух, а за ничью на серии — 2 очка вместо одного. Как только вы проигрываете, серия прекращается.
На скрине, прикрепленном выше, итоговые результаты самого громкого онлайн-турнира за всю историю шахмат. На Рождественской арене (пуля 1+0) с призом в 1 биткоин играли лучшие гроссмейстеры мира. Даже сам Магнус Карлсен в этой арене занял лишь 14-е место, а победителем оказался Хикару Накамура (никнейм TSMFTXH). Как видим, в графе набранных очков есть не только нули, единицы, двойки и четверки. Чтобы заработать пять очков, нужно выиграть с берсерком на победной серии, т.е. в начале партии сократить время на своих часах вдвое. К примеру, вы играете на арене с контролем 1+0. Если нажмете на берсерк, у вас останется всего 30 секунд на партию.
Если выиграете с берсерком, получите дополнительное очко. Конечно, меньшее количество времени должно усложнять победу, поэтому возникает резонный вопрос: какой политики следует придерживаться, чтобы максимизировать свои очки в турнире арены, учитывая систему берсерков? Например, вы можете играть более консервативно и реже брать берсерк, сосредоточившись на продлении победных серий, чтобы как можно чаще получать двойные очки. Именно такой стратегии придерживался Накамура на Рождественской арене - за весь турнир он добыл всего 8 побед с берсерком, в то время как Ян Непомнящий (Jepetto) выиграл с берсерком целых 12 раз, но проиграл много партий как раз из-за нехватки времени при взятом берсерке. А вот Владислав Артемьев (Konevlad) вообще не брал берсерк. Какая стратегия лучше?
Моделирование
Вы можете пытаться играть максимально агрессивно и часто брать берсерк, аргументируя это тем, что дополнительные очки, которые вы получаете от побед в берсерке, перевешивают двойные очки, которые вы потеряете, когда в конечном итоге упустите победную серию. jmviz попыталcя ответить на этот вопрос с помощью моделирования, основанного на данных титульных арен с контролем 1+0 и 3+0. Для наглядности представлена вот такая блок-схема в виде марковского процесса принятия решений (MDP). Дальше в статье рассмотрен сам процесс моделирования. Если хотите посмотреть итоговые графики, листайте сразу вниз.
На рисунке выше показана упрощенная модель. В начале каждой партии вы всегда находитесь в одном из трех состояний, соответствующих вашей текущей победной серии: узлы 0, 1 или 2+. В каждом состоянии есть два возможных действия: брать берсерк (красные линии/узлы) или нет (синие линии/узлы). И для каждой пары состояние-действие есть два возможных результата: выигрыш или проигрыш (в этом упрощенном примере мы не учитываем ничьих). С каждым из этих возможных результатов связана награда: заработанные вами очки (зеленые цифры). Наконец, для каждого состояния существует некоторая вероятность (возможно, равная 0) того, что текущая пара состояние-действие переведет вас в это состояние (на рисунке показаны только переходы состояние-действие-состояние с ненулевой вероятностью).
После того как вы сформулировали данную проблему как MDP, существуют стандартные методы для определения оптимальной политики, которая максимизирует общее вознаграждение с течением времени. В нашем случае нам просто нужно выйти за рамки упрощенного примера, добавив больше размерности в пространство состояний. В частности, мы считаем, что каждая возможная комбинация этих факторов является состоянием: ваша текущая серия побед; ваш цвет в текущей игре; рейтинг вашего оппонента; брал ли ваш противник берсерк. Также мы учитываем возможность ничейного исхода. Имея на руках эту формулировку MDP, все, что нам нужно для расчета оптимальной политики, — это модель, которая оценивает все вероятности перехода между состояниями и действиями.
Чтобы создать такую модель, были просмотрены все партии турниров на аренах 1+0 и 3+0 в базе данных Lichess с апреля 2017 года по декабрь 2021 года. Это составило ~71 и ~99 миллионов игр соответственно. Затем по этим данным составлены три модели:
- Модель логистической регрессии для оценки вероятности выигрыша-ничьи-проигрыша для любой партии с учетом рейтинга белых, рейтинга черных и того, брала ли каждая сторона берсерк.
- Модель логистической регрессии для оценки вероятности того, что белые или черные возьмут берсерк в любой партии, учитывая их рейтинги.
- Модель для оценки вероятности встречи с соперником определенного рейтинга с учетом вашего рейтинга.
Объединение этих трех моделей позволяет нам рассчитать вероятности перехода состояние-действие-состояние для MDP. И с полностью заданным MDP мы можем рассчитать оптимальную политику. На обоих следующих рисунках каждый график в сетке соответствует одному из двенадцати сценариев, определяемых комбинацией: вашей текущей серии побед, цвета, который у вас есть в текущей партии и того, брал ли ваш соперник берсерк. Соответствующий сюжет для каждого сценария находится на пересечении соответствующей строки и столбца.
Политика берсерка для арены с контролем 1+0
Политика берсерка для арены с контролем 3+0
Выводы
Голубой цвет указывает на такое сочетание данных, при котором использование берсерка не оправдано. Как показывает моделирование, на аренах в пулю использование берсерков менее логично, чем на блиц-аренах. Также заметно, что при уменьшении рейтинга соперника берсерк стоит брать чаще. Кажется, это весьма логично. Еще одна особенность - модель явно рекомендует брать берсерк при нулевой победной серии или когда победная серия только началась. Чем дольше победная серия, тем реже стоит брать берсерк. Изучите графики с учетом вашего рейтинга и попробуйте найти свою золотую середину.