@just_data_science September 29, 2017
Сегодня расшифруем еще один термин, который принято произносить с важным видом. Нередко - в одном предложении с уже рассмотренным нами термином Big Data.
Ок, поехали
Data Mining - дословно переводится как "Добыча данных". Почти что добыча полезных ископаемых. И это действительно наиболее близкая аналогия: в роли шахты - базы данных; в роли полезных ископаемых - некоторые полезные сведения, обнаруженные в этих базах данных.
Рассмотрим эту аналогию подробнее. Почему базы данных - шахта? Шахта - это такое место, где очень много бесполезной горной породы и некоторое количество полезных ископаемых. Так и с данными - в эпоху Big Data принято записывать каждый чих человека, каждое движение мышкой на сайте. По большей части, пользы от этой информации - не больше, чем от горной породы. Но если в этой куче хорошенько поработать лопатой, то вполне можно найти что-то очень полезное. И, в отличие от полезных ископаемых, никогда нельзя заранее точно сказать - какие из данных полезны, а какие - мусор.
Все-таки, что это такое - Data Mining?
Data Mining - это процесс поиска осмысленной и полезной информации в данных. Делается этот процесс с помощью современных компьютеров и программ для анализа данных. Программы как правило пишутся программистами-аналитиками (data analyst) специально под каждую конкретную задачу.
Обычно ищут информацию, которая пригодится для бизнеса, или для науки. Самый простой пример:
- берем базу данных розничных магазинов;
- ставим аналитикам запрос "Найти особенности продаж товаров в разные месяцы", они "кодят" (пишут код, программу);
- получаем результаты, в которых обнаруживаем, вы не поверите, что шампанское в конце декабря продается значительно лучше, а мороженое - летом;
- отдел закупок корректирует план поставок на год по полученной информации: летом завозим больше мороженого, в декабре - шампанского.
Конечно, это совсем утрированный пример. Более реалистичные примеры были в предыдущих статьях: тут и тут.
И все?
Не всегда задачи ставят так четко. И те задачи, которые ставят четко, в реальной жизни обычно требуют очень большого объема работ для получения ответа.
Часто ставят гипотезу, и по имеющимся данным ищут ее подтверждение/опровержение. Например "нервно дергающие курсор мышки люди - меньше покупают на сайте". Такая задача потребует поднять информацию о движениях мышки клиентов и их покупках, разделение всех клиентов на 2 сегмента ("нервно дергаются" и "обычные"). После этого, сравнив покупки обоих сегментов, делается вывод о (не)состоятельности гипотезы.
Нередко данные исследуют сами по себе. Возвращаясь к примеру с полезными ископаемыми - делают геологическую разведку, замеряют размеры-вес и свойства местных гор. Это называется Exploratory Data Analysis («Разведочный анализ данных»). Углубляться в него сейчас не будем, если вкратце - там сплошная математическая статистика (есть такая наука). Нужно это, так же как и георазведка, чтобы понять, на что годятся имеющиеся данные, какую пользу из них можно извлечь.
А в следующей статье будет еще один пример Data Minng - как с его помощью один математик нашел ♥любовь♥ своей жизни.