586 подписчиков

Корреляция: как изображать

906 прочитали
Пример графика для изображения прямой корреляции
Пример графика для изображения прямой корреляции

Корреляция показывает взаимосвязь между двумя параметрами. Она показывает, как по мере роста значений одного параметра другой либо закономерно увеличивается, либо уменьшается. Для изображения корреляционной зависимости используют график тренда.

Как построить график тренда?

Например, вы решили узнать, как рост человека (X) влияет на его массу (Y). Для этого следует подготовить таблицу (табл ниже), где в строчку следует поместить значения роста и массы для каждого исследуемого пациента, одно напротив другого. Значение роста при этом будет соответствовать координате X, а массы — координате Y для каждой точки, которую необходимо построить в координатной плоскости.

Вид таблицы для построения графика тренда и определения корреляционной зависимости
Вид таблицы для построения графика тренда и определения корреляционной зависимости

Наиболее часто в биомедицинских исследованиях используют прямую линию тренда, с помощью которой показывают линейную зависимость одного исследуемого параметра от другого. Следует помнить, что в некоторых случаях линию тренда следует изображать не прямой линией, а гиперболой, параболой, сигмоидой и т.д. По этой причине перед применением и интерпретацией статистических критериев всегда следует строить графики для исключения нелинейных корреляций.

Для построения линии тренда обычно используют специализированные компьютерные программы для статистики. Некоторые офисные редакторы таблиц, такие как Microsoft Excel, тоже имеют возможность строить подобные графики.

Глядя на график корреляции (рис. ниже), следует ответить на два вопроса: (1) насколько сильно наклонена прямая и (2) насколько близко точки прижимаются к прямой тренда.

Этапы построения графика для изображения линейной корреляционной зависимости
Этапы построения графика для изображения линейной корреляционной зависимости

Чем больше угол наклона прямой приближается к 45°, тем больше один параметр изменяется при росте другого, т.е. тем сильнее корреляционная связь. В случае если прямая напоминает горизонтальную или вертикальную линию, корреляционную связь можно считать настолько слабой, что в ней не будет никакого логического смысла.

Приведём пример. Представьте, что с увеличением роста человека на 10 см его систолическое давление будет увеличиваться на 0,1 мм рт. ст. — это настолько невыраженная зависимость, что на неё не следует обращать никакого внимания как с математической точки зрения, так и с точки зрения интерпретации её медицинского смысла.

Корреляционная связь одного параметра с другим может быть положительной или отрицательной. В случае положительной связи график тренда будет направлен вверх, а в случае отрицательной – вниз (рис. ниже).

График положительной и отрицательной корреляции с обозначением результатов применения статистического критерия Пирсона
График положительной и отрицательной корреляции с обозначением результатов применения статистического критерия Пирсона

Чем ближе точки расположены к прямой тренда, тем значимее статистическая связь и ниже p.

Результаты корреляционного анализа можно для наглядности указывать на самом графике (см. рис. 11, рис. 12). Главным образом это 2 величины: значение критерия корреляции (r для критерия Пирсона или ρ [ро] для критерия Спирмена) и «статистическая вероятность» (p). Если r или ρ — положительные числа, то прямая тренда будет стремиться вверх и показывать положительную корреляцию. Если отрицательные числа, — то отрицательную корреляцию, где прямая тренда стремится вниз (рис. выше). Как видите, логика проста. Чем больше r или ρ стремятся к плюс 1 или минус 1, то есть к углу в 45°, тем сильнее корреляция. Значения r или ρ менее 0,2 в биомедицинских исследованиях обычно считают недостаточными для того, чтобы можно было говорить о наличии корреляционной связи (табл. ниже).

Важно говориться. r Пирсона показывает степень наклона линии тренда, в то время как критерии ρ Спирмена, τ Кендалла являются ранговыми и скорее не показывают наклон линии тренда, а демонстрируют соотношение случаев роста и падения, вычисленные между каждой парой точек, описанные диапазонам от -1 до 1.
Интерпретация значений корреляционных критериев
Интерпретация значений корреляционных критериев

Обратите внимание, что несмотря на похожесть обозначения ρ [ро] и p [пэ] — не одно и то же.

Вне зависимости от того, насколько наклонена прямая, значение p требует оценки. Чем ниже p, тем сильнее точки прижимаются к прямой (рис. ниже). На p также влияет количество наблюдений: чем больше наблюдений, тем ниже p. Обычно в биомедицинских исследованиях за пороговое значение р принимают 5%, то есть если p < 0,05, то корреляцию считают статистически значимой.

Виды корреляционной связи в зависимости от их силы
Виды корреляционной связи в зависимости от их силы

***

Таким образом, для заключения о наличии корреляции нужны 3 вещи:

  • точечный график с линией тренда для исключения ложных корреляций,
  • значение p, показывающее степень прижатия точек к графику,
  • значение критерия корреляции r или ρ, или τ.

И лучше все эти вещи разместить на одном графике, чтобы читатель сразу понял всё однозначно.

Более подробная информация о том, что такое p (вероятность ошибки отклонения от нулевой гипотезы) читайте тут.

В каких случаях выбрать тест Пирсона, Спирмена или Кендалла, то есть в каких случаях использовать критерий r или ρ, или τ — напишу в следующей статье.

Опубликовано 10.04.2022, UPD (1) 17.05.24

***

Ещё больше статей на канале!

Не стесняйтесь комментировать и задавать вопросы. Ставьте лайк и подписывайтесь!

Жду предложений по новым статьям!

© Васильев А.В.

Копирование и распространение без согласия автора не допускается.