Почти в любой известной нам области знаний присутствуют аналитические системы: CRM для продаж, Analytics для рекламы и др. С их помощью проще актуализировать данные, строить гипотезы и автоматизировать расчеты. В спорте тоже нашлось место математическим алгоритмам, кастомным отчетам, теории вероятности. Если вы вдруг пропустили наступление цифровой эры в спорте, то советую посмотреть фильм с Бредом Питтом и Джона Хилла "Человек, который изменил все". https://www.kinopoisk.ru/film/432791/
А если вы из тех людей, кто давно слышал о технологиях больших данных в спорте, то наверное, вам будет интересно узнать об онлайн-сервисе Understat.com, который специализируется на обработке статистических данных в области футбола. На страницах ресурса вы сможете найти детальные отчеты об эффективности команда, их уровне реализации и индивидуальных особенностях отдельных игроков.
Навигация
Начнем с навигации, так как ускоренный скроллинг поможет лучше адаптироваться в пространстве данных.
По левую руку, в верхней части экрана располагается навигационная панель с лигами: EPL( Англия), LaLiga(Испания), Bundesliga(Германия), Seria A(Италия), Ligua 1(Франция), RFPL(Россия).
Справа в верхней части экрана располагаются привычные для любого веб-ресурса кнопки навигации - поиск, дом (переход на стартовую стр.), вход в личный кабинет.
Кроме этого, на главной странице сайте есть обращение разработчиков и диаграмма голов чемпионатов в разрезе за несколько лет.
Меню чемпионата
Попадая в меню чемпионата мы видим вкладки по временным отрезкам: prev week (прошедшая неделя) и next week (следующая неделя). Ниже по скроллу представлена текущая таблица чемпионата и свежая статистика по игрокам.
Показатели
В таблице чемпионата отражено множество интересных показателей. Одни из них нам хорошо знакомы: число матчей, число побед, ничьи и поражений, G(забитые голы), GA(пропущенные голы), PTS(сумма очков). Но и есть и такие данные, которые характерны только для данного ресурса: xG(ожидаемое кол-во забитых голов), xA(ожидаемое кол-во пропущенных), xPTS (ожидаемая сумма набранных очков).
О чем говорят эти данные?
Прежде всего речь идет о довольно тонком расчете ценности того или иного игрового момента. Основной упор делается на атакующие действия, и только те, которые закончились ударом по воротам. Прострелы, опасные подачи без завершения, обостряющие передачи в разрез - не высчитываются системой как вероятный шанс на гол.
Резюмируя: исследуя данные из live-таблицы можно легко понять в какой форме находится команда, заслуженна ли она занимает данную позицию, имеет ли она игровые недостатки.
Зеленые и красные обозначения
Зеленым цветом указаны значения ниже ожидаемого, то есть конкретный показатель оказался ниже ровно на то количество пунктов, которое имеет значение выделенное зеленым цветом. Красный показатель в точности наоборот: демонстрирует уровень выше ожидаемого (команда набрала или забила больше, чем могла бы, прим.).
Дополнительные показатели
- NPxG - ожидаемые голы без учета пенальти;
- NPxGA - ожидаемые пропущенные голы;
- NPx GD - показатель разницы между ожидаемыми голами и пропущенными без учета пенальти ;
- PPDA - показатель прессинга;
DC и ODC - это показатель прохода на расстояние 20 м от ворот противника, соотвественно добавление O - допущенное;
Общие метрики:
- G – показатель количества забитых голов;
- GA – показатель количества пропущенных голов;
- PTS – общая сумма набранных очков в чемпионате;
- xG – показатель ожидаемых голов;
- xGa – показатель ожидаемых пропущенных мячей;
- xPTS – общая сумма ожидаемых набранных очков;
Напротив каждой команды, кроме основных показателей, также представлены числа зеленого и красного цвета. Они являются показателем отклонения от ожидаемого количества показателей с реальными цифрами (см. выше)
Статистика игроков:
- А – количество голевых передач.
- xA – ожидаемое количество голевых передач.
- xPTS – ожидаемое количество забитых голов.
- xG90 – ожидаемое количество забитых голов в среднем за один матч.
- xA90 – ожидаемое количество результативных передач в среднем за один матч.
Как анализировать данные
Изучение статистических показателей xG на сайте Understat.com дает возможность оценить реальный потенциал команды.
Нередко в футболе возникает такая ситуация, что лучшая команда проигрывает (лучшая по визуальным составляющим). Однако, изучение аналитических выкладок может доказать правоту, указать на причины поражения или же подтвердить логичность визуального мышления. При использовании данных в прогнозах важно понимать, что фавориты на дистанции действуют убедительнее и это могут подтвердить выкладки на ресурсе Understat.
Внутри сервиса есть настраиваемые метрики, которыми удобно управлять при выстраивание гипотез. Ненужные вкладки просто отключаются, оставляя место только для действительно ключевой информации. Это помогает не только сэкономить время, но правильно оценивать входящий результат.
Оценка матча в режиме offline
Для правильной оценки информации важно знать значение следующих показателей:
CHANCES - шансы: показатель, который может быстро помочь сориентироваться в качестве атакующих действий команд. При разнице показатель в 10% можно считать, что игра была равной, при больших отклонениях равенство объективно невозможно.
хG - ожидаемый шанс на гол. Проще говоря, чем ближе показатель к 1, тем реальнее гол.
Пример разбора
Давай те для наглядности разберем "дерби двух столиц" Спартак М - Зенит. На скриншоте мы видим показатель хG - 1,72 и 1.85. Почти равные показатели говорят о том, что реальные шансы на гол были идентичны. Но если мы капнем глубже, то увидим, что Зенит перебил Спартак по ударам в сторону ворот и ударам в створ. Из этого можно сделать вывод, что москвичи действовали острее в подходах к воротам Кержакова, а Зенит не то чтобы транжирил свои моменты, скорее наоборот: они не создавали реальных шансов при явном ключевом преимуществе.
Делаем вывод: оборона Спартака сыграла неплохо, и в совокупности с блестящей игрой вратаря Спартаку удалось пропустить минимум голов из гипотетически возможных. И наоборот: оборона Зенита действовал неплохо на фоне немногочисленных атак, но дважды круто провалилась, чем вполне мог воспользоваться соперник.
DEEP - показатель передач в районе 20 м от ворот соперников выше у Зенита. Это значит, что команда лучше вскрывала зоны соперника и выводила партнеров на ударные позиции. На скриштоне можно увидеть, что это действительно так: количество ударов из штрафной выше у питерцев, а Спартак явно сваливал большинство атак на левый край.
Показатель PPDA у Зенита оказался выше чем у Спартака, делаем вывод: москвичи лучше играли в прессинге, это доказывают метки ударов из-за пределов штрафной. Тем самым можно догадаться, что команда Тедеско использовала низкий и средний блок в защитных построениях, который сработал.
xPTS - показывает нам, что в целом команды провели равную игру и никто не заслужил 3 очка (субъективное мнение, но по выкладкам с этим можно согласиться).
Другие важные показатели
DEEP - показатель паса в район 20 метров от ворот соперника. Данная метрика отражает показатель интенсивности работы нападения и качественное вскрытее обороны соперника. Если показатель низок или есть большая разница (+5) в значении, значит одна команда не имела реальных шансов на успех в конкретной игре.
PPDA - показатель качественной работы команды в прессинге. Чем ближе показатель к 1, тем эффективнее работает прессинг. Это обусловленно тем, что программа считает пасы в сторону ворот соперника на расстоянии от 40 м до ворот. Тем самым при низком значении выходит, что таких передач соперник сделал немного - значит оборона в порядке.
xPTS - ожидаемое количество очков
Big Chance, он же явный момент – показатель степени опасности у ворот. В фанатской среде такие шансы принято называть "верняк" или "100% момент". И как правило игрок, который умудряется запороть такой моменты навсегда остается в памяти фанатов.
Если провести паралель между метрикой "ожидаемые голы" и big chance, то показатель выше 0,3-0,5 - явный голевой момент. Для сравнения удар с 11-метровой отметки считают за 0,7 xG.
Билд-ап –термин обозначающий выход команды из под прессинга. Обычно такой маневр совершают при розыгрыше мяча от своих ворот, но бывают команды, которые предпочитают вертикальный билд-ап с выносом мяча на противоположную часть поля.
OPPDA- это уже показатель билд-ап в метрике. Общий алгоритм оценки здесь такой: показатель фиксирует количество передач после потери мяча. Низкий уровень обозначает, что у команды есть явные проблемы с выходом из под прессинга.
PPDA- Passes allowed per defensive active. Точный перевод довольно корявый: пасы допущенный против защитных действий. Если проще, это уже показатель указывает на эффективность работы высокого прессинга. Расчет такой: чем ниже этот показатель, тем круче сработал прессинг, так как защищающаеся команда не дала сделать много передач в радиусе 40 м от своих ворот. Если мы посмотрим повтор игры, то скорей всего увидим, как соперник умело перекрывает зоны для горизонтального билд-апа и заставляет защищающуюся команду выходить из обороны вертикально и широко. То есть чаще защитники тупо выносят мяч из зоны в борьбу, так как пространства для розыгрыша нет или оно чрезвычайно насыщенно игроками соперника.
ODC- обратный показатель: оценивает уже действие защиты относительно нападения в радиусе 18 м от своих ворот. Высокое значение говорит о том, что команда умело выходит из под прессинга при помощи сильных качеств своих защитников или опорной зоны.
Резюмируя данные по метрикам на сайте Understat.com хочется сказать, что футбольная аналитика может быть такой же интересной и увлекательной, как и любая другая, а в совокупности непредсказуемости результата и несправедливости судеский решений - это лучший способ проверить свои способности в предсказаниях и анализе больших данных.
Надеюсь, что данный материал доставил вам удовольствие. Подписывайте на канал, пишете комментарии, ставьте лайки.