Data Mining (дата майнинг) – процедура поиска и обнаружения в “сырых” данных скрытых полезных, ранее неизвестных и неопределенных.
Существует несколько определений термина, дополняющих классическое. Среди них:
- нахождение полезных и применимых на практике трендов в БД, которые могут быть применимы для повышения конкурентоспособности бизнеса;
- процесс, который ориентирован на поиск новых зависимостей и корреляций в результате фильтрации сверхбольшого объема данных с использованием математики.
У термина нет дословного перевода на русский, поэтому DM расшифровывают как: извлечение данных, фильтрация новых знаний из данных, интеллектуальный анализ данных, обнаружение новых знаний в БД.
История возникновения Data Mining
Началом существования DM считается мероприятие Григория Пятецкого-Шапиро в 1989 году. Спустя 4 года вышла первая рассылка «Knowledge Discovery Nuggets», еще через год открыты первые интернет-ресурсы по DM.
Свойства Data Mining
Если традиционные методы анализа (например, при помощи статистики и OLAP) направлены на проверку ранее полученных, сформулированных гипотез и предположений, то основное отличие Data Mining – именно в неочевидности полученных трендов и закономерностей.
Знания, извлекаемые при помощи DM, должны обладать определенными свойствами, среди которых:
- Новизна
Полученные в результате применения DM знания должны быть неизвестными, поскольку несут деловую важность и ценность для бизнеса. - Нетривиальность
Результаты применения DM не могут быть очевидными, например, полученными экспертным путем или наблюдениями. Выявленные закономерности и тенденции должны быть неожиданными и отражать неявные сведения. - Полезность
Получаемые знания обязаны быть полезными и способными применяться практически. - Доступность
Знания должны быть объяснимы, иначе есть высокая доля вероятности их случайности, а не закономерности. Вместе с тем, сведения обязаны быть представлены в понятном для восприятия человеком виде.
Задачи Data Mining
- Классификация
Отнесение полученного объекта/наблюдения/события (ОНС) к одному из классов; - Кластеризация
Разделение большого количества ОНС на кластеры по степени соответствия друг другу; - Сокращение
Для сжатия информации; - Ассоциация
Поиск повторений. Самый простой пример – поиск наличия связей в продуктовом наборе покупателя крупного супермаркета; - Прогнозирование
Предположение относительно будущих состояний объекта, опирающееся на устойчивое основание, полученное из исторических данных; - Визуализация
Наглядная интерпретация.
Методы Data Mining
Выделяют две основные группы методов DM:
- статистические,
которые используют “средний накопленный опыт”; - кибернетические
на основе различных математических подходов.
Сферы применения Data Mining
Нет ограничений по возможностям применения DM, главное условие – наличие данных. Хотя самыми первыми оценили перспективы использования подобных новшеств крупные коммерческие компании, которые ведут проекты на основе Data Warehousing. СМИ анонсируют крупные кейсы, где расписан экономический эффект от применения DM, который превысил первоначальные затраты среднем в 50 раз.
Практическое применение Data Mining
Поскольку именно применение полученных знаний на практике и получение экономической выгоды стоит в основе DM, то среди наиболее частых бизнес-задач:
- анализ клиентской базы, выявление наиболее перспективных покупателей (потребителей);
- оптимизация бюджета и поставщиков;
- повышение эффективности HR-службы (функции подбора персонала);
- оценка кредитоспособности потенциальных заемщиков;
- прогноз продаж.
Еще больше статей на нашем сайте - processmi.com