Найти в Дзене
Пытаюсь упрощать

Связан ли рост номинального ВВП и рост зарплат? Коэффициент Пирсона

Кажется, что люди всегда на интуитивном уровне понимали, что у явлений есть взаимосвязь. И то, что влияние может быть прямым или обратным, явным или условным, очевидным или практически невидимым. Когда мы выражаем эту связь, то получаем корреляцию - меру взаимной зависимости.  Что ж, если мы понимаем, что какое-то явление существует, то надо научится его высчитывать. Точное выражение чего-либо в коэффициенте позволяет не просто говорить об оказываемом влиянии, но и оценивать его интенсивность.  Вообще коэффициентов несколько, потому что и взаимосвязь бывает разная. Поговорим сегодня о коэффициенте Пирсона — наиболее базовом способе оценки линейной зависимости без учёта скрытых переменных. Тут сразу же ремарка, мы можем оценить взаимное движение показателей, но не причинно-следственную связь. Для начала, есть некоторые обязательные условия, чтобы коэффициент Пирсона давал точные результаты:  Да, наши данные соответсвуют требованиям, мы можем идти дальше. Вот формула:  Когда я только нач
Оглавление

Кажется, что люди всегда на интуитивном уровне понимали, что у явлений есть взаимосвязь. И то, что влияние может быть прямым или обратным, явным или условным, очевидным или практически невидимым. Когда мы выражаем эту связь, то получаем корреляцию - меру взаимной зависимости. 

Зачем нам коэффициент? 

Что ж, если мы понимаем, что какое-то явление существует, то надо научится его высчитывать. Точное выражение чего-либо в коэффициенте позволяет не просто говорить об оказываемом влиянии, но и оценивать его интенсивность. 

Как считать корреляцию? 

Вообще коэффициентов несколько, потому что и взаимосвязь бывает разная. Поговорим сегодня о коэффициенте Пирсона — наиболее базовом способе оценки линейной зависимости без учёта скрытых переменных. Тут сразу же ремарка, мы можем оценить взаимное движение показателей, но не причинно-следственную связь.

Для начала, есть некоторые обязательные условия, чтобы коэффициент Пирсона давал точные результаты: 

  • Данные должны быть количественными. В нашем случае — оценка динамики ВВП и средней зарплаты — подходит;
  • Зависимость должна быть линейной. Для проверки используют диаграммы рассеивания. Тут у нас тоже всё «ок»;
  • Для точного результата желательно иметь нормальное распределение. Проверяется обычно тестами. На графике нормальное распределение - это колоколообразная кривая. Визуально можно представить так: берём все отклонения от среднего значения, находим минимум и максимум. Полученный отрезок (от минимума до максимума) делим на ровные интервалы и подсчитываем, сколько значений вошло в первый интервал, сколько в следующий и так далее. Строим график: по оси X — интервалы, по оси Y — количество вхождений. Получаем столбчатую диаграмму, по верхам которой строим линию. Если она похожа на змею из маленького принца, которая съеда слона, то распределение нормальное;
  • Отсутствие выбросов. То есть данные в выборках не должны иметь сильных внезапных скачков. В противном случае используются другие коэффициенты;
  • Однородность дисперсии зависимой переменной при разных значениях независимой. Простыми словами (в реальности оценивают через тесты): ВВП может меняться слабее или сильнее, соответственно и изменение средней зарплаты может быть разным. Мы строим график: ось X — изменение ВВП, ось Y — изменение средней зарплаты, добавляем линию тренда — тут довольно просто, у нас есть средние значения этих изменений, они служат идеалом. Если отклонение от тренда по всей длине линии тренда примерно одинаково, то дисперсия однородная; 
  • Независимость наблюдений. В идеале для точности коэффициента данные не должны оказывать влияния друг на друга. В реальности, когда мы оцениваем экономические показатели по годам, то почти всегда данные зависимые. Временные ряды требуют предварительной подготовки. Именно поэтому мы оцениваем не в абсолютных значениях, а в проценте прироста — это позволяет снизить влияние автокорреляции. Такой подход снижает зависимость и делает результат точнее. Если представить на графике, то у зависимых наблюдений есть тренд на постепенный рост или спад во времени. У независимых — линия тренда параллельна оси, по которой мы отмеряем время (обычно делают ось X). 
-2

Считать-то что-нибудь будем? 

Да, наши данные соответсвуют требованиям, мы можем идти дальше. Вот формула: 

-3

Когда я только начал разбираться, формула казалась внушительной. На самом деле ничего сложного, если смотреть по частям.

В нашем случае в числителе мы берём каждое отклонение от среднего прироста изменения ВВП и умножаем на соответствующее отклонение от среднего изменения зарплаты для каждого года. Потом суммируем получившиеся по годам данные; 

В знаменателе, можно сказать, просто произведение стандартных отклонений. 

Ну и что это такое? 

В итоге мы получаем из числителя знак будущего коэффициента. Если изменения идут в одном направлении, то знак «+», если в разном, то «-». 

Также мы сумму произведений фактических отклонений делим на произведение стандартных отклонений. Таким образом значение коэффициента не может быть меньше -1 и больше 1. Для упрощения можно сказать, что суть похожа на то, как мы считаем проценты, но ещё с учётом знака. Ну и не умножая на 100 в конце. 

И что в итоге? 

Я посчитал коэффициент Пирсона для прироста ВВП и средней начисленной зарплаты за 20 лет (2004-2024 года). Данные взял с сайта Росстата. Коэффициент получился равным 0,59. 

Для интерпретации показателя надо понимать, что 1 — это идеальная прямая линейная зависимость, -1 — идеальная обратная линейная зависимость, 0 — идеальное отсутствие зависимости. 

По итогу мы видим, что есть умеренная зависимость роста средней заработной платы от роста номинального ВВП. 

Нам бы всем, наверное, хотелось более ярко выраженного роста зарплаты при росте экономики.