Вики пишет, что это методология или процесс обнаружения скрытых данных в общем массиве имеющихся.
Мы в data geeks считаем, что это не процесс, а результат.
Само понятие data mining появилось в 1989 году и было представлена нашим земляком, математиком Ильей Пятецким-Шапиро, который предположил, что накапливающиеся «сырые» данные содержат некое знание, не лежащее на поверхности и не заметное без обработки машиной человеческому глазу, другими словами ноу-хау.
Какого рода могут быть эти данные?
Приведу простой пример, когда у управленца становится очень много финансовых данных (ДДС, P&L, сводные промежуточные отчеты, и другие срезы) и все их целиком не возможно представить на одном листе, чтобы принять какое-либо решение, становится понятно, что человеку необходимо представить данные в более компактном виде, чтобы он мог усвоить их за приемлемое время.
Чаще всего извлечение данных (сбор данных) => приведение данных к стандарту и удаление ошибок ( data cleaning) => являются подготовительными этапами для извлечения данных (анализ) => и их графическому отражению (визуализации).
Таким образом аналитик для руководителя собирает-чистит-анализирует данные, например, из отчета о движении денежных средств и отчета о прибылях и убытках и делает из них график, потом совмещает получившийся график с стоимостью покупки валюты, если организация занимается импортом и поступлениям по дням/ месяцам, активным рекламным кампаниям организации и количеству новых клиентов, количеству текущих сделок - и руководитель видит на графике в динамике необходимость увеличения рекламного бюджета и приближающийся кассовый разрыв.