Найти в Дзене
#PPS

Рейтинг ELO и букмекерские коэффициенты: как получить идеальный прогноз. Часть II

#ProstoProSport продолжает публикацию материалов, посвященных научному прогнозированию спортивных ставок.

С первой частью можно ознакомиться на сайте prostoprosport.ru

Данные

Группа ученых получила данные о матчах за 10 сезонов в четырех важнейших европейских футбольных лигах, используя данные тематического сайта. В каждой из лиг все сезоны, начиная с 2007/2008 и заканчивая 2016/2017, добавлялись в общий набор матчей, состоящий из почти 14,500 домашних поединков. Также ученые извлекли данные о 10 сезонах важнейших международных клубных соревнований (Лига Чемпионов и Лига Европы), использовав для этого другой тематический сайт. Для всех сезонов от 2007/2008 до 2016/2017, были приняты во внимания матчи между участниками четырех ранее упомянутых футбольных лиг. В общей сложности, было рассмотрено более чем 450 еврокубковых матчей, которые после были добавлены в базу данных, состоящую из ~15,000 игр.

Модели, изученные на протяжении данной работы, основывались на таких данных: дата проведения матча, команда хозяев, команда гостей, голы со стороны хозяев (фулл тайм), голы со стороны гостей (фулл тайм), а также ставочные коэффициенты на победу гостей, ничью и победу хозяев. Дабы не называть конкретного букмекера с целью получения наилучших коэффициентов, ученые брали за основу совокупные показатели от всех букмекерских контор. За исключением отдельных случаев, средние коэффициенты основаны на цифрах пяти или более букмекеров для еврокубков, а в случаях, когда рассматривались домашние матчи в топ-чемпионатах, в расчете принимали участие от 20 и более букмекеров.

sportsflare.io
sportsflare.io

Разница между еврокубками и национальными матчами объясняется степенью информации и уровнем деталей, доступных в соответствующих источниках данных. К примеру, матчи «Кальяри» с «Ромой» (23.09.12) и «Сассуоло» с «Пескарой» (28.08.16) были полностью исключены из сетов данных, так как на итоги обоих поединков повлияло решение Федерации Футбола Италии. Финальные матчи Лиги чемпионов и Лиги Европы были полностью исключены из набора данных, так как они были сыграны на нейтральных полях.

Перевод беттинговых коэффициентов в вероятности

-3

Беттинговые коэффициенты широко используются для построения прогнозов, так как их легко переводить в вероятности, что не раз было доказано в крупных исследованиях. Для того, чтобы убрать букмекерскую маржу из коэффициентов, то есть, обеспечить суммирование производных вероятностей до 100%, ученые применили наиболее обширно используемый подход стандартной нормализации, а именно ликвидация общей букмекерской маржи, однако все это можно подвергнуть критике за излишнюю упрощенность, так как она завуалированно намекает на то, что букмекерская маржа пропорционально распределена среди всех возможных итогов матча. Ввиду относительно малых лимитов в нашем наборе данных (среднестатистического букмекерского овер-раунд в 1.064, соответствующего теоретического выигрыша 94.0%) ученые сочли подход основной нормализации с допустимым упрощением.

Рейтинговая система

Рейтинговая система ELO – хорошо известная и широко используемая рейтинговая система, изначально изобретенная для применения в шахматах, но ее успешно перевели для ранжирования футбольных команд. Модель основана на идее вычисления ожидаемого результата для каждого матча из ныне-известного рейтинга команд-участников. После матча выясняется реальный результат и рейтинги обоих участвующих команд регулируется соответствующим образом. Чем выше разница между реальным и ожидаемым результатами, тем большая поправка в рейтинги требуется (и с точностью наоборот). В результате, получается динамичный рейтинг для каждой команды, который корректируется после каждого матча.

Результат ELO

Допустим Hi и Ai – рейтинги ELO для команд хозяев и гостей перед матчем. Тогда ожидаемый результат матча:

-4

Где ω – измерение преимущества хозяев (по очкам ELO), а c и d – свободно выбранные параметры, влияющие на масштаб рейтинга. В этом исследовании мы применили обычный выбор: c = 10 и d = 400.

philly.com
philly.com

После матча реальный результат оказался aH для хозяев. Он был описан как aH = 1 в случае победы команды хозяев, aH = 0.5 в случае ничьей и aH = 0 если команда хозяев проиграет. Следовательно, действительный результат для команды гостей aA = 1 – aH, а рейтинг для обеих команд скорректирован следующим образом:

-6

Где k – фактор корректировки, который мы выберем для калибрования. Мы будем называть эту классическую модель «Результатом ELO».

ELO-Голы

Эта модификация модели ELO дополнительно учитывает голы, забитые каждой из команд. Затем параметр к меняется таким образом:

k = k0 (1+б)λ

Значит, модель способна задействовать больше информации, чем просто результат матча. Вычисления были переняты из модели ELO-Goals. Учтите, что всем знакомый Рейтинг World Football Elo, опубликованный в сети, также основан на вычислениях, в том числе голах, но использует несколько другой метод вычисления.

ELO-коэффициенты

Несмотря на то, что беттинговые коэффициенты показали наличие отличных прогностических качеств, они не задействовались в качестве основы составления ранжирования и рейтингов. На удивление, значимость беттинговых коэффициентов прошедших матчей для прогноза будущих матчей еще не была оценена. Данная модель названа ELO-Odds, она совмещает в себе методы рейтинга ELO с информацией, полученных из беттинговых коэффициентов.

Вычисление функционирует по принципу ELO-Result, то есть ожидаемый результат для каждого матча вычисляется из данного рейтинга его участников. Реальный результат, однако, заменен ожидаемым результатом в плане беттинговых коэффициентов. Допустим, PH и PA представляют собой вероятности победы хозяев, ничьей и победы гостей, полученные из беттинговых коэффициентов. Таким образом, реальный результат согласно ELO-Result заменяется:

Данная модель ставит перед собой цель получить доступ к большему количеству информации, чем результаты или голы, не извлекая ее напрямую из коэффициентов. В то же время, это сильное ограничение, так как в ходе вычисления рейтингов ELO-Odds никогда не используются непосредственные результаты матчей. Более того, модель использует беттинговые коэффициенты, взятые до матча в качестве меры измерения действительных результатов, таким образом, только используя информацию, известную до начала матча и полностью игнорирующую результат после игры.

Статистический фреймворк

-8

Чтобы удостовериться, в том, что данная работа основана на надежном фреймворке, мы воспользовались предыдущими исследовании и подтвержденными статистическими методами, в основном перенятыми от Хваттума и Арнтцена. Для каждой из моделей ELO подход был следующим: на каждый полноценный период данных (10 сезонов, 07/08–16/17) рейтинг ELO для каждой из команд вычисляется и корректируется после каждого матча. Преимущество хозяев ω = 80 используется в исконном виде. Изначально каждой из команд дан рейтинг в 1000 баллов перед первым матчем первого сезона. Для полезной начальной оценки продвигаемых команд в более поздних сезонах эти коллективы несут рейтинги разжалованных.

У этой процедуры есть два положительных эффекта: первый – можно предполагать, что продвигаемые команды в большинстве случаев слабее среднестатистических команды лиги. Таким образом, рейтинг разжалованных команд являет собой более многообещающую систему оценки качества команд, чем использование средней начальной оценки продвигаемых. Второй – вследствие выгодного побочного эффекта сумма рейтингов остается одинаковой в течение всего периода времени вычислений для всех ныне участвующих в одной из четырех лиг команд.

dailystar.com.lb
dailystar.com.lb

Первые два сезона (07/08 и 08/09) служат исключительно временным отрезком вычисления полезных первоначальных рейтингов каждой из команд. Для каждого из матчей из данных трех сезонов (09/10-11/12) получается разница между рейтингом команды хозяев и команды гостей. Разницы рейтингов этих команд затем используются как одиночный со-вариант последней порядковой регрессивной логит-модели.

В результате регрессионной модели, логистические функции получают и переводят разницу между рейтингами в вероятность победы хозяев, ничьей и победы гостей. На каждый матч последних пяти сезонов (12/13–16/17) данные вероятности вычисляются и формируют прогноз. Наконец-то прогноз анализируется с использованием информационной потери Li в качестве измерения прогностического свойства. Пожалуйста, учтите то, что минимизация информационной потери эквивалентна максимизации функции вероятности. Для подтверждения того, являются ли разницы потери функций двух моделей значимыми, используются парные t-тесты.

Больше спорта на сайт prostoprosport.ru