Найти тему

Использование технологий машинного обучения для моделирования игровых событий с спорте.

Саберметрика использует 121 вид статистики для количественной оценки успехов или неудач игроков в отбивании, подаче и игре на поле, а также сколько игр команды выигрывают или проигрывают в результате. Творчески обработанные, эти цифры могут помочь в принятии решений, которые могут иметь значение между победой и поражением.

В саберметрике сингл остается синглом независимо от того, что еще происходит, например, были ли бегуны на базе или где оказался мяч. не полностью отражает влияние игрока.

Модель Хитона основана на недавних работах в области обработки естественного языка (НЛП), в частности на методе последовательного моделирования под названием «Моделирование игрового состояния в маске», который помогает компьютерам выводить значение слов из окружающего контекста. По словам Хитона, в бейсболе аналогичный процесс можно использовать для определения значения игровых событий на основе контекста и их влияния на игру.

Хитон также использовал идею контрастного обучения с самоконтролем — семейства методов, используемых в компьютерном зрении для получения выводов на основе немаркированных данных. Идея состоит в том, что похожие представления одного и того же изображения будут давать результаты, которые также похожи и отличаются от других записей в пакете изображений.

«Мы адаптировали это к бейсболу и сказали, что один и тот же игрок в два близких момента времени должен оказывать одинаковое влияние на игру», — сказал Хитон.

Хитон и его соавтор, профессор IST Прасенджит Митра , обучили свою модель на данных системы Statcast , которая использует 12 высокоскоростных камер на каждом стадионе MLB для записи информации о подаче, ударах и игре на поле. Всего было три вида данных. Сначала они использовали пакет Python pybaseball для сбора данных по подачам за сезоны 2015–2019 годов и по сезонам 1995–2019 годов, всего по 5000 игр и 4,6 миллионам полей.

Данные по каждому полю включали номер игры, номер мяча и номер поля. Данные по сезонам охватывали результат каждой подачи с точки зрения изменений «состояния игры»: количества ударов по мячу, занятости базы, количества аутов и очков. Различные комбинации этих четырех чисел могут привести к одному из 325 возможных изменений игрового состояния.

Третий тип входных данных представлял собой записи традиционных саберметрических измерений, описывающие каждого питчера, отбивающего и их прошлые встречи. Они провели анализ на двух рабочих станциях с графическим процессором A600 в офисе Хитона.

Результат, описанный в статье , которая была выбрана в качестве финалиста на конференции MIT Sloan Sports Analytics , представлял собой измерение краткосрочного воздействия каждого игрока на игры, называемое «формой игрока». Форма, описываемая вектором из 64 элементов, описывает навыки игрока как часть более крупной последовательности событий, а не набор изолированных событий. Выраженное в низкоразмерном пространстве, называемом встраиванием, «оно дает гораздо больше нюансов в том, как хорошие игроки влияют на игру», — сказал Хитон.

Хитон и Митра тестировали эту технику на играх MLB с 2015 по 2019 год. В сочетании с традиционными саберметриками их подход позволил предсказать победителя игры с точностью почти 60%.

Авторы выложили код и данные в открытый доступ на Github . Они надеются использовать эту методологию для моделирования того, как события в одной игре связаны друг с другом и какое влияние другие члены команды, например менеджеры, могут оказать на результаты игры.

По словам Хитона, бейсбол с высокой статистикой является очевидной отправной точкой, но их подход также может быть полезен и в других видах спорта, таких как крикет, баскетбол или хоккей. Помимо спорта, его потенциально можно применять в здравоохранении, например, позволяя медицинским работникам описывать пациентов и их визиты к врачу в разные моменты времени.

В статье использовались материалы - The Forecast https://www.nutanix.com/theforecastbynutanix/industry/how-machine-learning-and-ai-can-predict-player-outcomes

Более детально с исследованием можно ознакомиться в статье "Using Machine Learning to Describe how Players Impact the Game in the MLB"