Найти в Дзене

Анализ стилевых профилей нападающих: кластеризация и поиск наиболее похожих игроков

Целью данной работы является выявление стилевых профилей нападающих на основе ивент-данных и поиск наиболее похожих игроков как в рамках выделенных групп, так и во всей выборке. В рамках исследования решаются две взаимосвязанные задачи: глобальная, заключающаяся в кластеризации игроков по стилю игры, и локальная, направленная на определение степени сходства между отдельными футболистами. В качестве исходных данных использовались данные от StatsBomb по трём международным турнирам: Copa America 2024, UEFA Euro 2024 и African Cup of Nations 2023. Для индивидуальной статистики всех игроков, участвующих в этих турнирах было выбрано 36 характеристик. Помимо них, запись об игроке содержит еще служебные поля (id, player_name, minutes_played, position). Большинство показателей были переведены в пересчет на 90 минут (p90). Финальный датасет представляет собой 576 записей (игрока) с 40 столбцами. Из выборки были исключены вратари, а также футболисты, сыгравшие менее 200 минут на турнире. Для час
Оглавление

Введение

Целью данной работы является выявление стилевых профилей нападающих на основе ивент-данных и поиск наиболее похожих игроков как в рамках выделенных групп, так и во всей выборке. В рамках исследования решаются две взаимосвязанные задачи: глобальная, заключающаяся в кластеризации игроков по стилю игры, и локальная, направленная на определение степени сходства между отдельными футболистами.

Подготовка данных

В качестве исходных данных использовались данные от StatsBomb по трём международным турнирам: Copa America 2024, UEFA Euro 2024 и African Cup of Nations 2023.

Для индивидуальной статистики всех игроков, участвующих в этих турнирах было выбрано 36 характеристик. Помимо них, запись об игроке содержит еще служебные поля (id, player_name, minutes_played, position). Большинство показателей были переведены в пересчет на 90 минут (p90).

Корреляционная матрица всех признаков
Корреляционная матрица всех признаков

Финальный датасет представляет собой 576 записей (игрока) с 40 столбцами. Из выборки были исключены вратари, а также футболисты, сыгравшие менее 200 минут на турнире.

Для части игроков отсутствовали значения отдельных признаков (prog_act_end_avg_height, dribble_avg_height, shot_avg_height). Пропущенные значения были заменены средними по соответствующим столбцам, так как доля пропусков была незначительной и не оказывала существенного влияния на распределения признаков.

На последующих этапах исследования использовалась отфильтрованная подвыборка, включающая только нападающих (left/right/center forwards).

Кластеризация

1. Выбор признаков

Для кластеризации нападающих был выполнен дополнительный отбор признаков. Было сокращено количество и выбраны наиболее подходящие под данное амплуа рассматриваемых игроков.

Сокращенная корреляционная матрица признаков
Сокращенная корреляционная матрица признаков

Среди них:

  • Пасы (p90);
  • Пас под удар (p90);
  • Количество удачных пасов и продвижений под давлением;
  • Верховые единоборства выигранные (p90);
  • Удары в створ (p90);
  • xG (p90);
  • Удары в проекции ворот;
  • Попытки дриблинга (p90);
  • Дуэли (p90);
  • Прогрессивные пасы (p90);
  • Прогрессивные продвижения (p90);
  • Средняя линия оборонительных (перехват, вынос, дуэль) действий;
  • Средняя линия получения мяча;
  • Средняя зона действий (привычная нумерация от 1 до 18).

2. Масштабирование признаков

Поскольку выбранные признаки находятся в различных масштабах, перед кластеризацией было выполнено масштабирование данных. В ходе экспериментов рассматривались три варианта:

  • No scaled – использование исходных данных;
  • MinMax scaled – приведение значений признаков к диапазону от 0 до 1;
  • Standart scaled – преобразование к нормальному распределению со стандартным отклонением.

Основное внимание уделялось MinMax масштабированию, так как оно сохраняет относительные различия между игроками и позволяет корректно интерпретировать евклидовы расстояния, используемые в последующем анализе схожести.

3. Выбор числа кластеров

Для определения оптимального количества кластеров использовались две метрики:

  • WCSS – характеризует компактность кластеров и позволяет выявить точку излома;
  • Silhouette – отражает компактность кластеров и их разделимость.

При использовании MinMax масштабирования наблюдается локальный излом кривой WCSS при числе кластеров k = 5, а значения silhouette стабилизируются вблизи данного значения. Несмотря на максимальное значение silhouette при k = 2, такой вариант был отклонён как тривиальный и неинтерпретируемый с точки зрения разнообразия игровых стилей нападающих. В итоге значение k = 5 было выбрано как компромисс между качеством кластеризации, интерпретируемостью и практической применимостью результатов.

-4
-5
-6

Результатом вышло следующее распределение:

-7
-8
-9

4. PCA и интерпретация стилевых осей

Для анализа структуры данных и интерпретации полученных кластеров был применён метод главных компонент (PCA). PCA использовался исключительно в аналитических и визуализационных целях, а не в процессе кластеризации.

Размерность пространства была снижена до двух компонент, что позволило наглядно представить распределение игроков и направление вкладов признаков. Интерпретация компонент проводилась на основе нагрузок признаков:

  • Первая главная компонента (PC1) отражает баланс между оборонительными действиями и ударной активностью;
  • Вторая главная компонента (PC2) связана с высотой и креативностью игры.
Направления (координаты) векторов-признаков
Направления (координаты) векторов-признаков
Направления векторов-признаков на графике с распределением игроков по профилю
Направления векторов-признаков на графике с распределением игроков по профилю

Такое представление позволяет перейти от многомерного пространства признаков к интерпретируемым стилевым осям и связать кластеры с конкретными типами игровых профилей.

Финальное распределение игроков по профилю
Финальное распределение игроков по профилю

5. Анализ кластеров

Для того, чтобы оценить распределение, для каждого из кластеров построена таблица со статистикой игроков по выбранным характеристикам. Дополнительно можно использовать тепловую карту с ивентами игрока, чтобы определить места и характер его действий на поле. Например, для 4го кластера:

-13
-14

Далее определяется средняя статистика игроков по кластерам, приведенная в таблицу:

-15

На основании совокупного анализа были получены следующие стилевые профили:

  • Кластер 0. Игроки данного кластера редко завершают атаки ударами, но активно участвуют в единоборствах и чаще других опускаются глубже за мячом.
  • Кластер 1. Универсальная группа без ярко выраженных экстремальных характеристик. Игроки данного кластера представляют собой промежуточный тип и требуют индивидуального анализа.
  • Кластер 2. Нападающие с наибольшей ударной активностью и высокой угрозой воротам соперника.
  • Кластер 3. Игроки, ориентированные на завершение атак: они часто оказываются вблизи ворот, обладают высокой ударной активностью, но при этом менее креативны.
  • Кластер 4. Наиболее креативные нападающие, активно участвующие в розыгрыше мяча и чаще совершающие оборонительные действия.

Поиск наиболее похожих игроков

Для решения локальной задачи поиска похожих игроков использовалось евклидово расстояние в пространстве нормализованных признаков. Расчёты выполнялись на том же наборе данных, который применялся для финальной кластеризации с MinMax масштабированием.

Евклидово расстояние было выбрано как интуитивно интерпретируемая мера сходства в нормализованном пространстве. Пороговое значение расстояния, равное 1, было выбрано эмпирически на основе распределения расстояний и позволяет выделять пары игроков с высокой степенью сходства.

Для всей выборки была построена матрица попарных расстояний, визуализированная в виде тепловой карты. Более тёмные оттенки соответствуют большей степени сходства между игроками, в то время как пары с расстоянием выше порогового значения не выделяются цветом.

-16

Пример

В качестве примера был рассмотрен нападающий V. Osimhen. Наиболее похожим на него игроком оказался J. Cordoba, находящийся с ним в одном кластере и обладающий минимальным евклидовым расстоянием (0.45). Для дополнительной наглядности сходство игроков было визуализировано с помощью радарных диаграмм, построенных на основе процентильных рангов характеристик.

-17

Дополнительно

Код и реализация: https://github.com/markuzz11/Analysis-of-Attacker-Style-Profiles
Автор: Хабаров Марк,
https://t.me/thetwelfthplayeranalysis