Найти тему
Art of Data&Statistics

Анализ зависимостей между двумя переменными. Регрессионный и корреляционный анализ.

В популярных научных статьях выводы обычно выглядят следующим образом:

«Сидячие виды деятельности, такие, как просмотр телесериалов, связаны с увеличением веса и возрастанием риска диабета у женщин», «Выражение гнева может иметь обратную взаимосвязь с риском сердечного приступа или удар: не сдерживайте свой гнев, не рискуйте!» и т.п.

-2

Как эти, так и другие явления и процессы, имеют ряд признаков (переменных), которые так или иначе их характеризуют. Выявление и измерение связи между этими переменными - важнейшая часть исследования!

Функциональная и корреляционная связь

В научных исследованиях принято различать два вида связей между переменными: функциональную и корреляционную.

Функциональная связь присуща объектам и явлениям неживой природы. При наличии функциональной связи изменение величины одной переменной неизбежно вызывает совершенно определенные изменения величины другой переменной. Функциональная связь практически всегда может быть задана формулой.

Пример: однозначная зависимость площади круга от его радиуса, рассчитанная по формуле: S = 𝞹R2. Конкретному значению R соответствует строго конкретное и рассчитанное по формуле значение S.

В биологических науках и медицинских исследованиях всё сложнее в силу того, что взаимодействия различных явлений живой природы – чрезвычайно многообразны! И неизбежным следствием этого является ситуация, когда одной и той же величине одного признака соответствует ряд варьирующих значений другого признака.

Пример: одному и тому же значению роста могут соответствовать разные, но чаще всего близкие по величине значения веса. Такого рода связь носит название корреляционной.

Функциональная связь характеризуется тем, что при постановке в формулу, допустим, S = 𝞹R2, значению каждого R соответствует рассчитанное по формуле значение S. В случае корреляционной связи невозможно однозначно определить формулу связи между переменными, так как одному и тому же значению независимой переменной соответствует ряд варьирующих значений зависимой переменной.
Функциональная связь характеризуется тем, что при постановке в формулу, допустим, S = 𝞹R2, значению каждого R соответствует рассчитанное по формуле значение S. В случае корреляционной связи невозможно однозначно определить формулу связи между переменными, так как одному и тому же значению независимой переменной соответствует ряд варьирующих значений зависимой переменной.

Анализируя корреляционную связь, исследователь не может однозначно определить вид (формулу) связи между ними, как это выглядит при функциональной зависимости. В примере с ростом и весом мы не можем определить математическую формулу, при подстановке в которую значения роста, он получил бы совершенное определенное и единственное значение веса; каждому определенному значению роста будет соответствовать несколько близких по величине значений веса.

При анализе корреляционной связи, также как и при других видах анализа, актуальны понятия «зависимая» и «независимая» переменные. В нашем примере рост играет роль независимой переменной, а вес — зависимой. Однако это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго. Поэтому независимую переменную часто называют предиктором: predictor - "предсказатель", прогностический параметр.

Выявление статистической связи двух переменных указывает на возможность причинной связи, но не доказывает ее. Это утверждение укладывается в известную формулу: "Correlation is not causation" - «Корреляция не подразумевает причинно-следственной связи». Корреляция между двумя переменными не обязательно означает, что одна переменная вызывает появление другой!

Пример: данные о ежемесячных продажах мороженого и ежемесячных нападениях акул в США, собираемые в течение нескольких лет, сильно коррелированы. Означает ли это, что употребление мороженого вызывает нападения акул?

Графики ежемесячных продаж мороженого и ежемесячных нападений акул в США, собираемые в течение нескольких лет, практически накладываются друг на друга. Это указывает на тесную корреляцию переменных "продажи мороженого" и "число нападений акул"!
Графики ежемесячных продаж мороженого и ежемесячных нападений акул в США, собираемые в течение нескольких лет, практически накладываются друг на друга. Это указывает на тесную корреляцию переменных "продажи мороженого" и "число нападений акул"!

Не совсем. Более вероятное объяснение состоит в том, что больше людей едят мороженое и купаются в океане, когда на улице теплее, что объясняет, почему эти две переменные так сильно коррелируют. Иными словами, продажи мороженого и нападения акул тесно связаны, одно не вызывает другого.

Разобраться в причинах и следствиях вообще невозможно чисто статистическими методами. Необходимо, в частности, найти биологический механизм, порождающий выявленную связь.

Пример: эпидемиологические данные о связи пассивного курения с заболеваемостью ишемической болезнью сердца еще не доказывают, что пассивное курение способствует развитию ИБС. Может быть, и то и другое — следствие какой-либо неизвестной причины, например нервной обстановки в рабочем коллективе. Однако экспериментальные данные о том, что пассивное курение и отдельные компоненты табачного дыма вызывают поражение сердца у лабораторных животных, говорят в пользу именно причинной связи.

В исследованиях часто встречается ситуация, когда мы видим имеющуюся взаимосвязь между переменными, но предсказать точное поведение одной переменной при изменении параметров другой, мы не можем. Причиной могут являться:

а) сложные механизмы самого взаимодействия;

б) влияющие факторы, о которых мы или элементарно не знаем, или намеренно исключили из эксперимента или повседневного практического опыта.

Именно поэтому при исследовании явления/объекта так важно учитывать максимально возможное число как факторов взаимодействия между явлениями/объектами, так и сторонних факторов, хотя бы тех, о которых мы знаем.

Вообще говоря, в общественных и естественных науках чрезвычайно широко используется анализ корреляционных связей. Это позволяет исследователю задать вопрос, выраженный следующей конструкцией: "что является лучшим предиктором для...". И, вероятнее всего, получить ответ на него.

Примеры: исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом.

"Что является лучшим предиктором для...?"
"Что является лучшим предиктором для...?"

Анализ предполагаемой зависимости имеет поэтапную структуру и начинается, как всегда, со сбора данных.

1. Сбор данных.

Данные попарно вносятся в таблицу таким образом, что каждому значению одной переменной соответствует определенное значение другой. Затем мы проводим первичный анализ предполагаемой зависимости.

Пример: возьмём пример с ростом и весом, и выясним, как рост человека влияет на его массу. Предположим, что мы собрали данные об этих параметров у 10 студентов. Внесём их в таблицу, где в строчку следует поместить значения роста и массы для каждого исследуемого пациента, одно напротив другого.

-6

Значение роста при этом будет соответствовать координате X (это независимая переменная, предиктор), а массы — координате Y (зависимая переменная) для каждой точки, которую необходимо построить в координатной плоскости.

2. Первичный анализ предполагаемой связи подразумевает нанесение результатов эксперимента на график.

Уже по первичному анализу можно судить о наличии какой-либо взаимосвязи. Из графика видно:

  • характер зависимости: линейная или криволинейная (параболическая, гиперболическая, корреляция рангов);
-7
  • прямая (при увеличении одной переменной увеличивается и другая) или обратная (при увеличении одной переменной, другая уменьшается) у нас связь;
-8
  • связь - сильная или слабая.
-9

В нашем примере с ростом и весом точки на графике выглядят следующим образом:

Похоже на то, что это а) линейная, б) положительная и в) довольно сильная корреляция между переменными Х (рост) и Y (вес).
Похоже на то, что это а) линейная, б) положительная и в) довольно сильная корреляция между переменными Х (рост) и Y (вес).

3. Регрессионный анализ

Следующим этапом будет построение так называемой кривой (линии) регрессии, которая призвана описать имеющуюся зависимость уравнением кривой. То есть, весь массив данных - точек на графике, мы заменяем уравнением, характеризующим имеющуюся связь с определенной точностью.

Собственно, этот процесс - построение кривой регрессии, описывающей имеющуюся зависимость уравнением кривой с определенной точностью, называется регрессионным анализом.

В биомедицинских исследованиях наиболее часто используют прямую линию регрессии (или просто - прямая регрессии), с помощью которой показывают линейную зависимость одного исследуемого параметра от другого. Другие случаи, когда кривая регрессии изображается не прямой линией, а другими формами (параболой, гиперболой и т.п.), выходят за рамки данной статьи, и будут рассмотрены позже. Однако, линия регрессии любой формы строится по методу наименьших квадратов: сумма квадратов расстояний от линии регрессии до всех точек выборки, минимальна.

Прямая регрессии в нашем примере:

Прямая регрессии с точками, каждая из которых соответствует паре переменных Х (рост) и Y (вес).
Прямая регрессии с точками, каждая из которых соответствует паре переменных Х (рост) и Y (вес).

Прямая регрессии описывается обыкновенным уравнением прямой:

y = kx + b, её параметры

k – коэффициент угла наклона прямой;

b – точка пересечения прямой с осью ординат.

Если прямая линия - возрастающая, она располагается в 1, 3 и 4 квадранте, если b > 0; в 1, 2 и 3 квадранте, если b <  0; в 1 и 3 квадранте, если b = 0. Возрастающая прямая означает положительную корреляцию, когда чем больше значение Х, тем больше значение Y. Если прямая линия - убывающая, она располагается в 1, 2 и 4 квадранте, если b > 0; во 2, 3 и 4 квадранте, если b <  0; во 2 и 4 квадранте, если b = 0. Убывающая прямая означает отрицательную корреляцию, когда чем больше значение Х, тем меньше значение Y. При k корреляция отсутствует, так как множеству значений независимой переменной Х соответствует одно единственное значение зависимой переменной Y, положительное (b > 0) или отрицательное (b <  0).
Если прямая линия - возрастающая, она располагается в 1, 3 и 4 квадранте, если b > 0; в 1, 2 и 3 квадранте, если b < 0; в 1 и 3 квадранте, если b = 0. Возрастающая прямая означает положительную корреляцию, когда чем больше значение Х, тем больше значение Y. Если прямая линия - убывающая, она располагается в 1, 2 и 4 квадранте, если b > 0; во 2, 3 и 4 квадранте, если b < 0; во 2 и 4 квадранте, если b = 0. Убывающая прямая означает отрицательную корреляцию, когда чем больше значение Х, тем меньше значение Y. При k корреляция отсутствует, так как множеству значений независимой переменной Х соответствует одно единственное значение зависимой переменной Y, положительное (b > 0) или отрицательное (b < 0).

Параметры уравнения y = kx + b рассчитывают по формулам, подставив в которую значения независимой (Х) и зависимой (Y) переменных из нашего примера для роста и веса, получаем следующие числа:

где X и Y — значения независимой и зависимой переменных, а n - объём нашей выборки.
где X и Y — значения независимой и зависимой переменных, а n - объём нашей выборки.

Коэффициент угла наклона прямой k составит 1,5747. Это интерпретируют следующим образом: увеличением Х (роста) на 1 (см), прогнозируется увеличение Y (веса) на 1,5747 (кг).

где X и Y — значения независимой и зависимой переменных, а n - объём нашей выборки.
где X и Y — значения независимой и зависимой переменных, а n - объём нашей выборки.

Это интерпретируют следующим образом:

Таким образом, формула прямой регрессии будет иметь вид: в отсутствие переменной Х (Х = 0), зависимая переменная будет иметь значение -197,71, и прямая регрессии пересечёт ось ОY в точке со значением 197,71.

Прямая регрессии в нашем примере описывается уравнением прямой y = 1,5747x - 197,71.
Прямая регрессии в нашем примере описывается уравнением прямой y = 1,5747x - 197,71.

В реальной жизни редко удается получить данные обо всей совокупности, и исследователю приходится довольствоваться выборками. Выборочные параметры уравнения регрессии, рассчитываемые нами k и b — не более, чем оценки истинных коэффициентов регрессии κ и β. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Разные выборки дают разные выборочные параметры. Если построить все возможные выборки по 10 элементов в каждой, получится совокупность всех значений k и b. Их средние будут равны κ и β. Чтобы учесть отличия выборочных параметров уравнения регрессии от истинных, необходимо рассчитать стандартные ошибки коэффициентов регрессии. Они используются при проверке гипотез и вычислении доверительных интервалов.

Последние часто изображают на графике, по обе стороны от прямой регрессии.

На графике - точки, каждая из которых соответствует паре каких-то переменных Х  и Y, x ̅ и y ̅ - средние арифметические значений независимой и зависимой переменных. Кривые, изображающие границы доверительного интервала, максимально приближены к регрессионной прямой в области средних значений.
На графике - точки, каждая из которых соответствует паре каких-то переменных Х и Y, x ̅ и y ̅ - средние арифметические значений независимой и зависимой переменных. Кривые, изображающие границы доверительного интервала, максимально приближены к регрессионной прямой в области средних значений.

Стандартные ошибки параметров уравнения регрессии k и b обозначаются соответственно mk и mb, и вычисляются по следующим формулам:

 Где xi и yi — значения независимой и зависимой переменных, x ̅ и y ̅ - средние арифметические значений независимой и зависимой переменных, n - объём нашей выборки и yˆi - прогнозируемое по уравнению регрессии значение зависимой переменной.
Где xi и yi — значения независимой и зависимой переменных, x ̅ и y ̅ - средние арифметические значений независимой и зависимой переменных, n - объём нашей выборки и yˆi - прогнозируемое по уравнению регрессии значение зависимой переменной.

Для описания тесноты связи нельзя пользоваться только регрессионным анализом. Хотя, на первый взгляд, использовать стандартное отклонение в качестве меры тесноты - хорошая идея! Однако, если поменять местами зависимую и независимую переменные, то стандартное отклонение и другие показатели регрессионного анализа, будут иными. Получается, что связь роста с весом одна, а веса с ростом — другая. Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характеристики силы связи. Избавиться от этого недостатка позволяет расчёт коэффициента корреляции, идея которого, в общем-то, вытекает из регрессионного анализа.

4. Корреляционный анализ.

График корреляции позволяет нам получить ответить на два главных вопроса: а) насколько сильно наклонена прямая и б) насколько близко точки прижимаются к прямой тренда. Ответом на первый вопрос будет определение параметра k уравнения прямой y = kx + b. Ответ на второй вопрос мы получаем, рассчитав число, выражающее характеристику тесноты (силы) связи между переменными. Это число называется коэффициентом корреляции.

Коэффициент корреляции Пирсона (r) представляет собой меру линейной зависимости двух переменных. Для нашего примера мы будем рассчитывать именно его. Другие виды коэффициентов корреляции - коэффициент ранговой корреляции Спирмена (непараметрический) и коэффициент ранговой корреляции Кенделла (мера линейной зависимости между случайными величинами), будут рассмотрены в других статьях.

Коэффициент корреляции Пирсона (r) предназначен для описания линейной связи количественных признаков. Он является параметрическим, в связи с чем условие его применения - нормальное распределение каждой из сопоставляемых переменных. Знак коэффициента корреляции показывает направление связи: прямая корреляция, если r - положительное число; или обратная корреляция, если r - отрицательное число. Абсолютная величина коэффициента корреляции показывает тесноту связи.

!Коэффициент корреляции может принимать значения от –1 до +1!

В отсутствие связи коэффициент корреляции равен нулю. Чем он ближе к единицам, тем теснее связь между переменными, то есть, тем ближе точки подбираются к прямой регрессии. Соответственно, крайние значения -1 и 1 означают, что все точки, соответствующие паре переменных, лежат на прямой регрессии.

Коэффициент корреляции Пирсона (r) рассчитывают по формуле:

где X и Y — значения независимой и зависимой переменных, а Х ̅ и Y ̅ - средние арифметические значений независимой и зависимой переменных.
где X и Y — значения независимой и зависимой переменных, а Х ̅ и Y ̅ - средние арифметические значений независимой и зависимой переменных.

Подставим в эту формулу значения из нашей таблички с ростом и весом. Средний рост в нашей выборке из 10 студентов получается 172,3; средний вес - 73,6. Получается:

r = 0,90587 в нашем примере, что позволяет нам говорить о том, что точки находятся очень близко к прямой регрессии!
r = 0,90587 в нашем примере, что позволяет нам говорить о том, что точки находятся очень близко к прямой регрессии!

Как уже было сказано, чем больше r стремятся к 1 или -1, тем сильнее корреляция. Значения r < 0,2 в биомедицинских исследованиях обычно считают недостаточными для того, чтобы можно было говорить о наличии корреляционной связи. Интерпретируют результаты корреляционного анализа обычно следующим образом:

Интерпретация значений корреляционных критериев.
Интерпретация значений корреляционных критериев.

!Вне зависимости от того, насколько плотно прилегают точки к прямой, и насколько значение r близко к 1 или -1, корреляционный анализ требует оценки статистической значимости!

После того, как мы построили регрессионную модель, точность рассчитанного коэффициента корреляции оценивают при помощи критерия Стьюдента.

Уровень значимости, вычисленный для каждой корреляции, представляет собой главный источник информации о надёжности корреляции. Значимость определенного коэффициента корреляции зависит от объема выборок.

Где r - коэффициент корреляции Пирсона, а n - объём выборки.
Где r - коэффициент корреляции Пирсона, а n - объём выборки.

Критическое (табличное) значение t (при p < 0,001 и при числе степеней свободы n = 10 – 2 = 8) равно 5,04, то есть меньше полученного нами. Таким образом, при уровне значимости 0,001, наш результат значим, и можно утверждать, что существует статистически достоверная корреляция между ростом студента и его весом.

Наука
7 млн интересуются