Найти тему
Data Science и всё такое

О Data Mining - для самых маленьких

Оглавление

@just_data_science September 29, 2017

Сегодня расшифруем еще один термин, который принято произносить с важным видом. Нередко - в одном предложении с уже рассмотренным нами термином Big Data.

Ок, поехали

Data Mining - дословно переводится как "Добыча данных". Почти что добыча полезных ископаемых. И это действительно наиболее близкая аналогия: в роли шахты - базы данных; в роли полезных ископаемых - некоторые полезные сведения, обнаруженные в этих базах данных.

Рассмотрим эту аналогию подробнее. Почему базы данных - шахта? Шахта - это такое место, где очень много бесполезной горной породы и некоторое количество полезных ископаемых. Так и с данными - в эпоху Big Data принято записывать каждый чих человека, каждое движение мышкой на сайте. По большей части, пользы от этой информации - не больше, чем от горной породы. Но если в этой куче хорошенько поработать лопатой, то вполне можно найти что-то очень полезное. И, в отличие от полезных ископаемых, никогда нельзя заранее точно сказать - какие из данных полезны, а какие - мусор.

Все-таки, что это такое - Data Mining?

Data Mining - это процесс поиска осмысленной и полезной информации в данных. Делается этот процесс с помощью современных компьютеров и программ для анализа данных. Программы как правило пишутся программистами-аналитиками (data analyst) специально под каждую конкретную задачу.

Обычно ищут информацию, которая пригодится для бизнеса, или для науки. Самый простой пример:

  • берем базу данных розничных магазинов;
  • ставим аналитикам запрос "Найти особенности продаж товаров в разные месяцы", они "кодят" (пишут код, программу);
  • получаем результаты, в которых обнаруживаем, вы не поверите, что шампанское в конце декабря продается значительно лучше, а мороженое - летом;
  • отдел закупок корректирует план поставок на год по полученной информации: летом завозим больше мороженого, в декабре - шампанского.

Конечно, это совсем утрированный пример. Более реалистичные примеры были в предыдущих статьях: тут и тут.

И все?

Не всегда задачи ставят так четко. И те задачи, которые ставят четко, в реальной жизни обычно требуют очень большого объема работ для получения ответа.

Часто ставят гипотезу, и по имеющимся данным ищут ее подтверждение/опровержение. Например "нервно дергающие курсор мышки люди - меньше покупают на сайте". Такая задача потребует поднять информацию о движениях мышки клиентов и их покупках, разделение всех клиентов на 2 сегмента ("нервно дергаются" и "обычные"). После этого, сравнив покупки обоих сегментов, делается вывод о (не)состоятельности гипотезы.

Нередко данные исследуют сами по себе. Возвращаясь к примеру с полезными ископаемыми - делают геологическую разведку, замеряют размеры-вес и свойства местных гор. Это называется  Exploratory Data Analysis («Разведочный анализ данных»). Углубляться в него сейчас не будем, если вкратце - там сплошная математическая статистика (есть такая наука). Нужно это, так же как и георазведка, чтобы понять, на что годятся имеющиеся данные, какую пользу из них можно извлечь.

А в следующей статье будет еще один пример Data Minng - как с его помощью один математик нашел ♥любовь♥ своей жизни.