Само по себе определение больших данных разнится. Кто-то говорит, что это обязательно должны быть огромные массивы информации, кто-то, что дело не в массиве и его количестве, а в том, каким образом эта информация обрабатывается. В определении Wikipedia упор не на количество данных, а на принципы их обработки и, самое главное, схемы машинного обеспечения данной обработки. В этой статье это определение мы будем принимать за BIG DATA
Самое главное, что позволяют сделать большие данные, это собрать корреляционные признаки между теми факторами, предположить взаимосвязь между которыми было бы невозможно.
История статистики и спорт
Яркий случай применения статистики в большом спорте — это бейсбол. Началось все с Билла Джеймса в 1977 году фаната бейсбола, который записывал и структурировал все данные, которые мог собрать на тот момент: сколько отбивают успешные игроки, за какой срок перебегают с базы на базу, на какой базе проходят тренировки и.т.д С помощью этих данных он доказал несостоятельность бытовавшей на тот момент гипотезы о том, что для отбивающего игрока главным показателем успешности является статистика отбитых мячей. Оказалось, что главным показателем их эффективности является способность к захвату баз. Таким образом, неявный показатель захвата баз оказался важным при сопоставлении статистических данных побед и поражений. По его гипотезе, отбивающий должен оцениваться не по тому, сколько он отбивает, а по тому, насколько успешно он занимает новые базы. Джеймс выявил и подтвердил эту гипотезу статистически.
Он также заметил корреляцию между некоторыми характеристиками спортсменов и победными сериями. Некоторые беттеры, находясь на базе, приносят гораздо больше шансов победить, но ценятся при этом меньше. А это значит, что даже клубы с маленьким бюджетом могут существенно повысить качество игры, заменив неочевидные элементы спортивной головоломки.
Джеймс не остановился на достигнутом. Он также сделал предсказательную математическую модель, которая позволял оценить шансы команды на победу. За основу, на которой делались расчеты были приняты такие показатели, как: количество прогулок, хитов, взятых баз и.т.д Также принимались в рассчет индивидуальные качества каждого отдельного игрока. Эта модель позволила очень точно предсказывать количество очков, которые команда набирала в сезон.
Так, примерно к концу 90-ых годов тренеры, игроки и болельщики оценили важность статистики в спорте и приняли тот факт, что с помощью нее можно корректировать состав команд и поведение игроков для достижения наилучших результатов. Это не далось сразу, ведь многие из скаутов, что набирали игроков в команды привыкли больше доверять интуиции, чем статистическим расчетам. Тем не менее, постепенно важность сбора статистических данных признали и владельцы клубов и тренерский состав.
И здесь спортивных аналитиков ждали новые вызовы. Длительное время данные собирались вручную, а обрабатывались буквально «на коленке». Эти данные, приносящие пользу, еще не были «большими» ни по методике сбора, ни по технологии обработки. С одной стороны, стало понятно - данные собирать надо. С другой стороны оставалось абсолютно неясным как именно их необходимо собирать? И как именно обрабатывать. При сборе данных вручную очень большую роль оказывает человеческий фактор и невозможно предотвратить ошибки. Прорывом стало изобретение трекеров.
От статистики к BIG DATA
Прорывом в области сбора информации в спорте стала возможность считывать данные со спортсменов непосредственно на поле. Первый трекер сделали еще в 1981 году. Он был простым и позволял считывать только показания сердечного ритма. А широкое распространение трекеры получили под конец 2000-х. Современное развитие датчиков позволяет считывать несколько типов данных.
Во-первых, геолокационные. Мы можем посмотреть, на каком месте поля в какой момент игры находился тот или иной игрок. Сколько времени у него уходит на то, чтобы добежать от начала до конца поля. И как на его эффективность влияют, например, другие игроки, с которыми он взаимодействует.
Во-вторых, сейчас возможно оценить физиологическое состояние игрока. Его сердечный ритм, температуру тела и.т.д. Отслеживать это можно в реальном времени. Иногда это может спасти человеку жизнь. Также возможно, отслеживать состояние игрока между играми, ведь датчики подобного типа можно вмонтировать, например, в часы. Состояние игрока в межсезонье тоже важно. Ведь одна из задач тренера и врача команды вывести человека на пик формы именно к сезону.
Датчики также можно устанавливать на ворота, линию передачи штрафных, на баскетбольные кольца и.т.д Это позволяет собирать данные о забитых мячах, шайбах и.т.д Каждый вид спорта диктует свою форму трекеров и свой формат данных, которые необходимо считать. В «Формуле 1», например, есть датчики как для пилота, так и те, которые высылают информацию непосредственно с автомобиля.
Собирая данные с этих трекеров становится возможным отслеживать взаимосвязь между ними. Вручную это сделать гораздо сложнее, но применяя алгоритмы машинного обучения и трекеры, это становится возможным. И позволяет находить взаимосвязи между такими типами данных, которые, на первый взгляд не могут быть связаны. Передвижение игрока по полю, его самочувствие в этот момент, нахождение мяча или иного игрового снаряда- все это сейчас возможно считать. И использовать для достижения наилучшего спортивного результата и сохранности здоровья игрока.
Случаи успеха
Пожалуй, самым ярким случаем успеха применения больших данных в спорте на данный момент является противостояние в финале Кубка Мира по футболу между Бразилией и Германией в 2014 году (1:7).
Тренеры немецкой сборной пользуясь данными усилили свои сильные качества и нашли слабые стороны команды Бразилии. Внимательно просмотрев матчи конкурентов, они просчитали, что сборная Бразилии не держит середину поля за счет того, что использует атакующую стратегию игры, и даже полузащитники играют оттакликиваясь от атаки. Таким образом, стало понятно, что если увеличить качество перетасовки в середине поля, то нацеленная на атаку сборная Бразилии не сможет ничего поделать.
По результату анализа данных у немцев появился конкретный показатель, улучшая который можно повысить шансы на победу. И конкретная переменная которая позволяет этот показатель измерить. Называлась эта переменная «скорость перепасовки в середине поля». На начало чемпионата она составляла 3,4 секунды, к матчу со сборной Бразилии ее сознательно улучшили до 1,1 секунд, сократив в 3 раза.
Всё ли способны учесть BIG DATA?
От обыкновенной статистики, собираемой операторами, всего за 20-30 лет, спортивная аналитика пришла к трекерам, которые позволяют считывать данные автоматически и к аппаратным технологиям BIG DATA, которые позволяют эту информацию обрабатывать с не бывалой ранее точностью.
Безусловно, на победу все равно будет влиять ряд факторов, которые сложно или невозможно просчитать. Психологическая устойчивость, внезапный грипп одного из ведущих игроков, погодные условия… Есть множество факторов, которые будут вносить в строгую закономерность случайности. И в этом смысле, технологии не способны учесть все. Однако, это не значит, что к ним не будут активно прибегать.
Трекеры в каждый клуб
За трекерами различных видов (телесных, геолокационных, визуальных и.т.д) будущее. В условиях жесткой конкуренции именно технологическая статистика будет определять преимущество.
Количество и тип данных постоянно растут, а это значит, что в течение ближайших десятилетий рынок данных в спорте и способ их обработки будет формироваться весьма активно. И у оригинальных игроков, которые способны предложить новые алгоритмы обработки и сбора данных есть хорошие шансы занять на этом рынке свое место.
Уважаемые читатели, ставьте лайки и подписывайтесь на канал. Это способствует его развитию. А я буду стараться писать регулярно и качественно. Также пишите в коментах, понравилась ли статья и о чем еще написать.