Ничего не могу с собой поделать, мне очень нравится фильм "Джентльмены". И когда я рассчитываю коэффициент Пирсона для очередной модели, представляю себя владельцем небольшого предприятия. Согласитесь, что более пафосно звучало бы коэффициент Микки Пирсона))).
Но всё же , оставим лирику. Итак, руководство поставило задачу проанализировать данные на предмет влияния на срок резервирования продукции на сладе. Т.е. предварительно проговорили варианты, что в целом могло бы повлиять, что можно попробовать посмотреть. Ну и естественно самому тоже нужно было поискать новые признаки, кроме обозначенных.
Так же было указано, что вероятно, данную задачу можно попробовать решить методом кластеризации. И честно говоря, давно хотел пополнить свой перечень реализованных проектов моделью кластеризации. Меня даже не смутил тот факт, что на входе был задан целевой признак...).
Как говорится, попытка - не пытка. Собрал датасет по всем признакам, которые гипотетически могли повлиять на целевой. Категориальные признаки, перевёл в дамми-переменные. Обработал пропуски в данных.
С помощью метода локтя, и для верности коэфициентом силуэта определил оптимальное число кластеров.
Провёл кластеризацию методом k-средних.
Ну и получилось, что получилось). Почти ничего, что можно было бы использовать в качестве полезного вывода.
Матрица корреляций, тоже дала нулевой выхлоп по целевому признаку. Как раз в её основе и лежит расчёт классического коэффициента корреляции - коэффициента Пирсона.
И это только часть из взятых для анализа признаков.
Далее, посовещавшись с коллегами, был сделан вывод. Что для поставленной задачи не нужно было применять кластеризацию в принципе. И моё слепое желание во чтобы-то не стало попробовать применить этот инструмент в реальном проекте, сыграло против меня). Поэтому в данный статье не буду выкладывать ссылку на код кластеризации.
Но опыт - сын ошибок трудных.... Поэтому получив совет, решил двигаться в сторону оптимизации перечня признаков, обработки выбросов и предварительного анализа корреляции, баз какого-либо машинного обучения.
Матрица корреляций по прежнему осталась холодна к интересным зависимостям целевого признака.
Далее посмотрел на данные через диаграмму рассеяния.
Парные диаграммы, которые вызвали интерес рассмотрены более подробно.
Одним из значимых нововведений по аналитическим скиллам, в данном проекте, является расчёт Коэффициента корреляции phi_k. По описанию, он больше адаптирован к учету нелинейных зависимостей и категориальных признаков. Для оценки по данному коэффициенту не нужно переводить категориальные признаки в дамми-переменные.
Значимой корреляции целевого признака – срока резервирования с какими-либо числовыми признаками не выявлено.
Но, благодаря именно коэффициенту phik стала заметна незначительная корреляция срока резерва с категориальными признаками Округ, ПлощадкаРезерва и Торговая площадка.
В итоге, дальнейший анализ был проведен в разрезе отмеченных категориальных признаков. Для этого был подготовлен дашборд в Power BI. Где с помощью анализа указанных признаков найдены варианты оптимизации целевого признака.
Для последующих задач поиска взаимосвязей с целевым признаком первоочередной упор буду делать на быстрый поиск корреляций с помощью рассмотренных инструментов (в первую очередь коэффициент phik, в данном проекте он хорошо помог по сравнению со стандартным коэффициентом Пирсона).