Найти тему
Николай Лазарев

Коэффициент Пирсона, phik, корреляция и негативный опыт кластеризации)

Ничего не могу с собой поделать, мне очень нравится фильм "Джентльмены". И когда я рассчитываю коэффициент Пирсона для очередной модели, представляю себя владельцем небольшого предприятия. Согласитесь, что более пафосно звучало бы коэффициент Микки Пирсона))).

Мэтью Макконахи в роли Микки Пирсона конечно хорош!
Мэтью Макконахи в роли Микки Пирсона конечно хорош!

Но всё же , оставим лирику. Итак, руководство поставило задачу проанализировать данные на предмет влияния на срок резервирования продукции на сладе. Т.е. предварительно проговорили варианты, что в целом могло бы повлиять, что можно попробовать посмотреть. Ну и естественно самому тоже нужно было поискать новые признаки, кроме обозначенных.

Так же было указано, что вероятно, данную задачу можно попробовать решить методом кластеризации. И честно говоря, давно хотел пополнить свой перечень реализованных проектов моделью кластеризации. Меня даже не смутил тот факт, что на входе был задан целевой признак...).

Как говорится, попытка - не пытка. Собрал датасет по всем признакам, которые гипотетически могли повлиять на целевой. Категориальные признаки, перевёл в дамми-переменные. Обработал пропуски в данных.

С помощью метода локтя, и для верности коэфициентом силуэта определил оптимальное число кластеров.

-2
Определение оптимального количества кластеров методом локтя
Определение оптимального количества кластеров методом локтя
Определение оптимального количества кластеров через Коэффициент силуэта
Определение оптимального количества кластеров через Коэффициент силуэта
-5

Провёл кластеризацию методом k-средних.

-6
-7

Ну и получилось, что получилось). Почти ничего, что можно было бы использовать в качестве полезного вывода.

Один из многочисленных графиков.
Один из многочисленных графиков.
Всё так красиво, но ничего полезного.
Всё так красиво, но ничего полезного.

Матрица корреляций, тоже дала нулевой выхлоп по целевому признаку. Как раз в её основе и лежит расчёт классического коэффициента корреляции - коэффициента Пирсона.

Матрица корреляций
Матрица корреляций

И это только часть из взятых для анализа признаков.

Далее, посовещавшись с коллегами, был сделан вывод. Что для поставленной задачи не нужно было применять кластеризацию в принципе. И моё слепое желание во чтобы-то не стало попробовать применить этот инструмент в реальном проекте, сыграло против меня). Поэтому в данный статье не буду выкладывать ссылку на код кластеризации.

Но опыт - сын ошибок трудных.... Поэтому получив совет, решил двигаться в сторону оптимизации перечня признаков, обработки выбросов и предварительного анализа корреляции, баз какого-либо машинного обучения.

Функция для визуализации выбросов
Функция для визуализации выбросов
Смотрим выбросы
Смотрим выбросы
Всё остальное убираем.
Всё остальное убираем.

Матрица корреляций по прежнему осталась холодна к интересным зависимостям целевого признака.

Матрица корреляций
Матрица корреляций

Далее посмотрел на данные через диаграмму рассеяния.

-15
Диаграмма рассеяния
Диаграмма рассеяния

Парные диаграммы, которые вызвали интерес рассмотрены более подробно.

-17
-18

Одним из значимых нововведений по аналитическим скиллам, в данном проекте, является расчёт Коэффициента корреляции phi_k. По описанию, он больше адаптирован к учету нелинейных зависимостей и категориальных признаков. Для оценки по данному коэффициенту не нужно переводить категориальные признаки в дамми-переменные.

-19
-20
-21
-22

Значимой корреляции целевого признака – срока резервирования с какими-либо числовыми признаками не выявлено.

Но, благодаря именно коэффициенту phik стала заметна незначительная корреляция срока резерва с категориальными признаками Округ, ПлощадкаРезерва и Торговая площадка.

В итоге, дальнейший анализ был проведен в разрезе отмеченных категориальных признаков. Для этого был подготовлен дашборд в Power BI. Где с помощью анализа указанных признаков найдены варианты оптимизации целевого признака.

-23

Для последующих задач поиска взаимосвязей с целевым признаком первоочередной упор буду делать на быстрый поиск корреляций с помощью рассмотренных инструментов (в первую очередь коэффициент phik, в данном проекте он хорошо помог по сравнению со стандартным коэффициентом Пирсона).