Коэффициент корреляции Пирсона, также известный как Коэффициент линейной корреляции Пирсона или Коэффициент корреляции произведения моментов Пирсона (Pearson product-moment correlation coefficient, PPMCC), является одним из наиболее распространенных статистических показателей, используемых для измерения Силы и направления линейной взаимосвязи между двумя количественными переменными.
Что показывает коэффициент Пирсона?
Значение коэффициента Пирсона (r) всегда находится в диапазоне от -1 до +1.
R=+1: Означает Идеальную прямую (положительную) линейную связь. При увеличении одной переменной другая переменная также увеличивается строго пропорционально. Точки на диаграмме рассеяния выстраиваются в идеальную прямую линию, идущую вверх справа. R=−1: Означает Идеальную обратную (отрицательную) линейную связь. При увеличении одной переменной другая переменная строго пропорционально уменьшается. Точки на диаграмме рассеяния выстраиваются в идеальную прямую линию, идущую вниз справа. R=0: Указывает на Отсутствие линейной связи между переменными. Это не означает полное отсутствие связи вообще, но говорит о том, что между ними нет Линейной зависимости. Возможно, существует нелинейная связь (например, параболическая), которую коэффициент Пирсона не улавливает. Значения между 0 и ±1: Указывают на наличие линейной связи разной степени выраженности. Чем ближе абсолютное значение r к 1, тем сильнее линейная связь.
Интерпретация силы связи
Общепринятые, но условные (могут варьироваться в разных областях) диапазоны для интерпретации силы линейной связи по Пирсону:
∣R∣ от 0 до 0.24: Очень слабая/практически отсутствующая связь. ∣R∣ от 0.25 до 0.49: Слабая связь. ∣R∣ от 0.50 до 0.74: Умеренная (средняя) связь. ∣R∣ от 0.75 до 0.99: Сильная (высокая) связь. ∣R∣=1: Идеальная (функциональная) связь.
Условия применения коэффициента Пирсона
Для корректного применения коэффициента корреляции Пирсона необходимо выполнение следующих условий:
Количественные данные: Обе переменные (X и Y) должны быть измерены в Интервальной шкале или шкале отношений (то есть, это должны быть числовые данные, для которых имеет смысл математические операции, такие как сложение, вычитание, деление). Линейность связи: Предполагается, что взаимосвязь между переменными Линейна. Если связь нелинейна (например, U-образная или экспоненциальная), коэффициент Пирсона может быть низким или близким к нулю, не отражая при этом реальной нелинейной зависимости. Нормальное распределение: Переменные должны быть Нормально распределены. Хотя коэффициент Пирсона часто устойчив к умеренным отклонениям от нормальности на больших выборках, для малых выборок и строгой интерпретации нормальность важна. Если распределение сильно отличается от нормального, могут быть более подходящие непараметрические коэффициенты (например, Спирмена или Кендалла). Отсутствие выбросов: Коэффициент Пирсона Чувствителен к выбросам (аутлайерам). Одно или несколько аномальных значений могут существенно исказить его величину и направление. Однородность дисперсий (гомоскедастичность): Желательно, чтобы дисперсии переменных были примерно одинаковыми по всему диапазону значений.
Важные замечания
Корреляция не означает причинно-следственную связь: Высокий коэффициент корреляции между двумя переменными не гарантирует, что одна переменная является причиной изменения другой. Существование корреляции может быть обусловлено влиянием третьей, неучтенной переменной, или просто случайностью. Выборочный характер: Коэффициент Пирсона, рассчитанный по выборке, является лишь оценкой истинного коэффициента корреляции в генеральной совокупности. Для оценки статистической значимости используются дополнительные тесты (например, t-критерий).
Коэффициент Пирсона широко используется в различных областях, от экономики и социологии до медицины и психологии, для выявления и количественной оценки линейных зависимостей между явлениями.