Ключевым навыком, отличающим специалиста по машинному обучению от программиста, является умение анализировать. Можно без труда запускать известные модели на очищенной информации и быть совсем непригодным к работе с реальными данными. Как же это исправить?!
Проблема заключается в части анализа. Например, ранее я показал как скачать подробную статистику о турнирах по смешанным единоборствам, организуемым UFC. Допустим, вы извлекли эти данные. После этого возникает главный вопрос: "Что с ними делать?!" Здесь уже каждый волен проявить свою креативность.
Вместе с тем при обсуждении вопроса большинство сразу ищет возможность решения самой очевидной задачи - предсказания исхода будущего поединка. А если не получается (что не удивительно!) - считает бессмысленной всю проделанную работу. Ну а как вам такая цель - изучение статистики поведения бойца и продажа этой информации его сопернику. Разве для последнего не важно узнать, что оппонент крайне редко проходит в ноги (в цифрах), практически не наносит точные удары коленом в корпус, за раунд не выбрасывает больше определенного количества ударов. Также можно проанализировать характер противников наиболее эффективно противостоявших изучаемому, определить формулу их успеха.
От таких сведений любой боец может строить стратегию на бой. Я думаю, что большинство из тренерских команд делает это, исключительно просматривая бои. Но не будем забывать, что во многих задачах человеку установить закономерность гораздо сложнее, чем машине.
А как вам другая интересная цель - определение предвзятости в голосах судей. Например, выявить арбитра, мнение которого чаще всего расходится с позицией коллег. Эти сведения должны заинтересовать больше руководство UFC. Но и тренерские штабы, владея такими сведениями, могли бы обоснованно настаивать на изменении судейского состава.
Данная задача сопряжена с другой. Если предвзятые судьи отдают победу конкретным бойцам, последних можно отнести в категорию "блатных" и учитывать этот фактор в случае рассмотрения вопроса о встрече с ними.
Замечу, что большинство интересных приложений требует проведения больше статистических исследований, нежели запуска сложных моделей машинного обучения.
Вот пример того, что должен делать аналитик. Большим заблуждением является мнение, что любой компетентный специалист, например, разработчик программного обеспечения, является аналитиком. Нет, это навык, который необходимо развивать. Инструменты анализа не ограничиваются умением читать и пользоваться поисковой системой. Более того, помимо ряда сервисов и методик для аналитика важны навыки тайм-менеджмента, скорочтения, концентрации внимания, релаксации (кстати поэтому я и стал включать соответствующую информацию в данный блог).
В целом указанная выше предварительная работа предполагает хорошее знание предметной области. После достижения этой цели вашим ключевым инструментом может стать ручка и чистый лист бумаги, готовый принять все идеи без критики (подробно об этом писал ранее).
А вы какие интересные приложения статистики спортивных поединков сможете привести?