Найти в Дзене

Correlation в Машинном обучении простыми словами

Фото: @anniespratt
Фото: @anniespratt

Корреляция (причинность, взаимозависимость) – мера взаимосвязи переменных друг с другом. В Машинном обучении (ML) зачастую подразумевается как взаимосвязь переменной-предиктора и целевой переменной (Target Variable).

В статистике корреляция – метод, который определяет, как одна переменная изменяется по отношению к другой, поскольку в большинстве случаев полезно выражать одну тему с точки зрения ее отношений с другими.

Самой распространенной в Машинном обучении по праву считается корреляция Пирсона и высчитывается это коэффициент следующим образом:

-2

Пример. Двадцати школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X – среднее время решения наглядно-образных, а переменная Y – среднее время решения вербальных заданий.

Представим данные в виде таблицы, где время решения наглядно-образных задач – X, вербальных – Y, а n – количество учеников. Снабдим ее дополнительными расчетными метриками – произведением X и Y, а также X и Y в квадрате по отдельности. Дополнительно вычислим сумму значений каждого столбца.

-3

Выполнив подстановку, мы получим:

-4

Отлично! Мы получили сильную корреляцию, поскольку принято разграничивать ее типы следующими интервалами:

-5

Чем лучше ученик решает наглядно-образные задачи, тем лучше он справляется и с вербальными. Визуализируем это Наблюдение (Observation), отсортировав для наглядности таблицу от большего к меньшему по столбцу X.

-6

Построим Точечную диаграмму (Scatterplot) на базе этой таблицы:

-7

Чем больше времени уходит на задачу первого типа, тем больше и на задачу второго. Это корреляция положительная, поскольку коэффициент равен положительному числу, и линия имеет уклон вправо.

Существует несколько классификаций корреляции:

  • по выраженности (сильная, средняя, низкая)
  • по знаку (положительная, отрицательная)
  • по форме (линейная, нелинейная)
Нелинейная (nonlinear) корреляция
Нелинейная (nonlinear) корреляция

В Машинном обучении принято рассматривать пять типов такой взаимозависимости – r (коэффициент корреляции Пирсона), p (к. к. Спирмана), τ ("тау", к. к. Кендалла), φk ("фи-ка", к. фи-корреляции), φc ("фи-Крамер", к. к. Крамера).

Матрица корреляции, вычисленная с помощью библиотеки pandas-profiling
Матрица корреляции, вычисленная с помощью библиотеки pandas-profiling

Чем ярче (краснее / синее) ячейка, тем сильнее выражена корреляция. Диагональные ячейки игнорируются, поскольку являются результатом расчета коэффициента между переменной и ее копией.

Корреляция и причинность

Стоит знать, что вышеупомянутые термины означают разные вещи в статистике и Машинном обучении. Причинность означает, что одна переменная является причиной появления другой, как, например, зарплата работника напрямую зависит от количества отработанных часов. А вот корреляция, в свою очередь, не означает, что изменение одной переменной вызовет изменение значений другой переменной, а лишь показывает, существует ли связь между ними.

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.