Найти тему

Завершение сезона по текущей таблице – глупость. Лиги выбирают между плохими и очень плохими вариантами

Текущие результаты – плохой инструмент для прогнозирования.

Сейчас всерьез рассматривается три варианта завершения турниров, которые не могут быть доиграны:

  • По таблице очков за игру;
  • По таблице после n туров (где n – число матчей у клуба, который сыграл меньше всех);
  • По таблице первого круга.

Между этими методами нет фундаментальных отличий. Разве только первый круг – совсем плох, потому что дает заметно меньше информации. Все три варианта страдают от двух непреодолимых проблем: игнорирование трудности календаря и ориентация на результаты как ключевой фактор при практически полном отсутствии предсказательной силы у них.

Тут очень важно не запутаться в определениях. Важность результатов как конечного продукта любого футбольного процесса – аксиома. Никто не пытается ее оспорить или подменять счета в матчах и таблицу, которую они формируют, другими параметрами. Но важность текущих результатов не наделяет их предсказательной силой. Это абсолютные разные вещи, а в данном случае нас интересует именно максимально точный прогноз.

Суть проблемы: текущие результаты – плохой индикатор будущих результатов. Тезис проверен большим количеством исследований – как внутри аналитических компаний, так и математических в университетских работах (с некоторыми из них ознакомимся ниже).

Практически любая модель, основанная на статистике, а не на результатах матчей, лучше предсказывают будущие результаты на больших выборках матчей и клубов. Тоже не со 100% точностью, но ощутимо лучше. Аномалии будут при любой модели. Критики часто выбирают одну аномалию – и стараются использовать ее как аргумент против всей модели. Но теория вероятностей не так работает – речь об объективном обоснованном прогнозе, а не знании будущего.

-2

Да, даже с самой лучшей моделью мы не можем знать, где и когда возникнет аномалия, а они всегда будут (потому что футбол – спорт низкой результативности), поэтому мы никогда не будем предсказывать со 100-процентной точностью. Но мы можем оценить предсказательную силу модели на большом количестве команд и лиг.

В случае с завершением сезона досрочно через уже набранные очки нам тоже предлагают своего рода модель. Очки за игру – главный фактор. Дальше строится проекция – команды просто сохраняют текущий темп до конца сезона и оказываются на этих местах. Представив это как модель, мы можем изучить ее предсказательный потенциал на исторических выборках.

Подобные исследования проводились в Стокгольмском университете. Выяснилось, что ориентация на текущие результаты не дает практически никакой предсказательной силы. В исследовании строились даже намного более трудные модели, но все они учитывали только прошлые результаты как инструмент предсказания. Ни одна модель, основанная только на результатах уже сыгранных матчей, не дала хороших прогнозов.

Правда, что любые модели до сих пор слабы в предсказании результата конкретного матча (возможно, будут всегда из-за хаотичной природы футбола), но на дистанции все меняется. Ричард Уиттэл, бывший аналитик Prozone и 21st Club, приводил цифру в 5-10 игр как дистанцию, на которой xG-модели приобретают предсказательный потенциал. Как раз столько необходимо сыграть в большинстве лиг, а для обоснованного предсказания у нас есть информация 25+ туров. Это вполне хорошие стартовые данные.

-3

Я не хочу бомбардировать вас однотипными, но полезными и показательными исследованиями, поэтому здесь будет абзац с максимально грубым и простым объяснением. Есть простой тезис – и он оказался рабочим: «Если команда достигла случайного результата, его будет повторить труднее, чем логичный». Все остальное из него вытекает. Таблица засчитывает каждый результат как логичный, а статистическая модель (необязательно xG) нацелена на то, чтобы ловить случайные результаты (хорошая – ловит), и учитывать при предсказании будущих результатов.

На малых дистанциях случайности возможны, но на больших предсказательная способность статистической модели возрастает, а модели, основанной только на результатах, падает. Поэтому даже ранние xG-модели давали лучшую предсказательную силу. Грубо говоря, проекция на основании xG-таблицы после 10 туров лучше предсказывает финальную таблицу (вернее даже финальные результаты по очкам), чем настоящая таблица после 10 туров. Чем больше туров, тем больше преимущество моделей.

К сожалению, предлагаемые варианты не просто хуже математических моделей, которые способны учесть больше информации, но и банально плохи сами по себе. У нас нет научного базиса для того, чтобы считать, что команда с темпом набора 1,5 очка за игру сохранит его на дистанции последних 10 матчей. В большинстве случаев расхождения будут существенными. Расхождения при прогнозе через модель, основанную на более глубокой статистике, будут менее существенными.