Найти в Дзене
Властелин машин

Корреляция Спирмена, когда полезна и почему о ней надо знать

Осознанность — это восприятие всех деталей происходящего по отдельности и в целом. Когда ты переживаешь их, видишь, понимаешь суть и взаимосвязи (Ольга Нестерова). Самым распространенным способом определения зависимости между признаками является корреляция Пирсона, но она обладает рядом особенностей, в том числе не устойчива к выбросам. В демонстрационных целях рассмотрим корреляцию для двух датафреймов, в которых отличаются только последние строки (используем метод corr, в котором по умолчанию применяется способ Пирсона - method='pearson'): Как можно заметить, коэффициент сильно меняется при изменении значений. А теперь вызовем corr с параметром method='spearman' и убедимся в устойчивости к выбросам: Метод Спирмена устойчив к выбросам, так как считает корреляцию между рангами элементов, а не их величинами. При этом коэффициент можно посчитать по формуле (𝑥𝑖,𝑦𝑖 - ранги значений): Альтернативным способом подсчета является вычисление корреляции Пирсона для рангов: Вышеуказанная фо

Осознанность — это восприятие всех деталей происходящего по отдельности и в целом. Когда ты переживаешь их, видишь, понимаешь суть и взаимосвязи (Ольга Нестерова). Самым распространенным способом определения зависимости между признаками является корреляция Пирсона, но она обладает рядом особенностей, в том числе не устойчива к выбросам.

В демонстрационных целях рассмотрим корреляцию для двух датафреймов, в которых отличаются только последние строки (используем метод corr, в котором по умолчанию применяется способ Пирсона - method='pearson'):

Как можно заметить, коэффициент сильно меняется при изменении значений.

А теперь вызовем corr с параметром method='spearman' и убедимся в устойчивости к выбросам:

-2

Метод Спирмена устойчив к выбросам, так как считает корреляцию между рангами элементов, а не их величинами. При этом коэффициент можно посчитать по формуле (𝑥𝑖,𝑦𝑖 - ранги значений):

-3

-4

-5

Альтернативным способом подсчета является вычисление корреляции Пирсона для рангов:

-6

Вышеуказанная формула выводится из определения корреляции Пирсона, примененной к рангам значений из выборок:

-7

Учтем, что (читай тут):

-8

Тогда один из множителей знаменателя считается так:

-9

Преобразуем числитель:

-10

Учтем, что:

-11

Тогда:

-12

Полезные ссылки:

-13