Введение
Целью данной работы является выявление стилевых профилей нападающих на основе ивент-данных и поиск наиболее похожих игроков как в рамках выделенных групп, так и во всей выборке. В рамках исследования решаются две взаимосвязанные задачи: глобальная, заключающаяся в кластеризации игроков по стилю игры, и локальная, направленная на определение степени сходства между отдельными футболистами.
Подготовка данных
В качестве исходных данных использовались данные от StatsBomb по трём международным турнирам: Copa America 2024, UEFA Euro 2024 и African Cup of Nations 2023.
Для индивидуальной статистики всех игроков, участвующих в этих турнирах было выбрано 36 характеристик. Помимо них, запись об игроке содержит еще служебные поля (id, player_name, minutes_played, position). Большинство показателей были переведены в пересчет на 90 минут (p90).
Финальный датасет представляет собой 576 записей (игрока) с 40 столбцами. Из выборки были исключены вратари, а также футболисты, сыгравшие менее 200 минут на турнире.
Для части игроков отсутствовали значения отдельных признаков (prog_act_end_avg_height, dribble_avg_height, shot_avg_height). Пропущенные значения были заменены средними по соответствующим столбцам, так как доля пропусков была незначительной и не оказывала существенного влияния на распределения признаков.
На последующих этапах исследования использовалась отфильтрованная подвыборка, включающая только нападающих (left/right/center forwards).
Кластеризация
1. Выбор признаков
Для кластеризации нападающих был выполнен дополнительный отбор признаков. Было сокращено количество и выбраны наиболее подходящие под данное амплуа рассматриваемых игроков.
Среди них:
- Пасы (p90);
- Пас под удар (p90);
- Количество удачных пасов и продвижений под давлением;
- Верховые единоборства выигранные (p90);
- Удары в створ (p90);
- xG (p90);
- Удары в проекции ворот;
- Попытки дриблинга (p90);
- Дуэли (p90);
- Прогрессивные пасы (p90);
- Прогрессивные продвижения (p90);
- Средняя линия оборонительных (перехват, вынос, дуэль) действий;
- Средняя линия получения мяча;
- Средняя зона действий (привычная нумерация от 1 до 18).
2. Масштабирование признаков
Поскольку выбранные признаки находятся в различных масштабах, перед кластеризацией было выполнено масштабирование данных. В ходе экспериментов рассматривались три варианта:
- No scaled – использование исходных данных;
- MinMax scaled – приведение значений признаков к диапазону от 0 до 1;
- Standart scaled – преобразование к нормальному распределению со стандартным отклонением.
Основное внимание уделялось MinMax масштабированию, так как оно сохраняет относительные различия между игроками и позволяет корректно интерпретировать евклидовы расстояния, используемые в последующем анализе схожести.
3. Выбор числа кластеров
Для определения оптимального количества кластеров использовались две метрики:
- WCSS – характеризует компактность кластеров и позволяет выявить точку излома;
- Silhouette – отражает компактность кластеров и их разделимость.
При использовании MinMax масштабирования наблюдается локальный излом кривой WCSS при числе кластеров k = 5, а значения silhouette стабилизируются вблизи данного значения. Несмотря на максимальное значение silhouette при k = 2, такой вариант был отклонён как тривиальный и неинтерпретируемый с точки зрения разнообразия игровых стилей нападающих. В итоге значение k = 5 было выбрано как компромисс между качеством кластеризации, интерпретируемостью и практической применимостью результатов.
Результатом вышло следующее распределение:
4. PCA и интерпретация стилевых осей
Для анализа структуры данных и интерпретации полученных кластеров был применён метод главных компонент (PCA). PCA использовался исключительно в аналитических и визуализационных целях, а не в процессе кластеризации.
Размерность пространства была снижена до двух компонент, что позволило наглядно представить распределение игроков и направление вкладов признаков. Интерпретация компонент проводилась на основе нагрузок признаков:
- Первая главная компонента (PC1) отражает баланс между оборонительными действиями и ударной активностью;
- Вторая главная компонента (PC2) связана с высотой и креативностью игры.
Такое представление позволяет перейти от многомерного пространства признаков к интерпретируемым стилевым осям и связать кластеры с конкретными типами игровых профилей.
5. Анализ кластеров
Для того, чтобы оценить распределение, для каждого из кластеров построена таблица со статистикой игроков по выбранным характеристикам. Дополнительно можно использовать тепловую карту с ивентами игрока, чтобы определить места и характер его действий на поле. Например, для 4го кластера:
Далее определяется средняя статистика игроков по кластерам, приведенная в таблицу:
На основании совокупного анализа были получены следующие стилевые профили:
- Кластер 0. Игроки данного кластера редко завершают атаки ударами, но активно участвуют в единоборствах и чаще других опускаются глубже за мячом.
- Кластер 1. Универсальная группа без ярко выраженных экстремальных характеристик. Игроки данного кластера представляют собой промежуточный тип и требуют индивидуального анализа.
- Кластер 2. Нападающие с наибольшей ударной активностью и высокой угрозой воротам соперника.
- Кластер 3. Игроки, ориентированные на завершение атак: они часто оказываются вблизи ворот, обладают высокой ударной активностью, но при этом менее креативны.
- Кластер 4. Наиболее креативные нападающие, активно участвующие в розыгрыше мяча и чаще совершающие оборонительные действия.
Поиск наиболее похожих игроков
Для решения локальной задачи поиска похожих игроков использовалось евклидово расстояние в пространстве нормализованных признаков. Расчёты выполнялись на том же наборе данных, который применялся для финальной кластеризации с MinMax масштабированием.
Евклидово расстояние было выбрано как интуитивно интерпретируемая мера сходства в нормализованном пространстве. Пороговое значение расстояния, равное 1, было выбрано эмпирически на основе распределения расстояний и позволяет выделять пары игроков с высокой степенью сходства.
Для всей выборки была построена матрица попарных расстояний, визуализированная в виде тепловой карты. Более тёмные оттенки соответствуют большей степени сходства между игроками, в то время как пары с расстоянием выше порогового значения не выделяются цветом.
Пример
В качестве примера был рассмотрен нападающий V. Osimhen. Наиболее похожим на него игроком оказался J. Cordoba, находящийся с ним в одном кластере и обладающий минимальным евклидовым расстоянием (0.45). Для дополнительной наглядности сходство игроков было визуализировано с помощью радарных диаграмм, построенных на основе процентильных рангов характеристик.
Дополнительно
Код и реализация: https://github.com/markuzz11/Analysis-of-Attacker-Style-Profiles
Автор: Хабаров Марк, https://t.me/thetwelfthplayeranalysis