Найти тему
Властелин машин

Простой способ определить зависимость

В современную цифровую эпоху нас окружают потоки информации, от понимания которых зависит наша успешность и благосостояние. В особенности изучением данных озаботились крупные и средние компании, которые стремятся максимизировать прибыль путем оптимизации бизнес-процессов. Базовым этапом анализа информации является определение зависимости между некоторыми явлениями.

Наиболее простым и распространенным способом для этого служит нахождение коэффициентов ковариации (Gxy) и корреляции (Pxy). Формально они определяются как:

  • Gxy = E(X-Ex)(Y-Ey), где E - математическое ожидание, соответственно Ex, Ey - математические ожидания случайных величин X и Y (подробнее о понятиях рассказывал здесь);
  • Pxy = Gxy / (Sx*Sy), где Sx и Sy - стандартные отклонения X и Y (читай здесь).

Как можно заметить, эти два коэффициента имеют непосредственную связь друг с другом. При этом Pxy введен больше для удобства из-за некоторых недостатков Gxy, заключающихся в следующем:

  • единицей измерения коэффициента ковариации является произведение единиц измерения входящих величин, что сложно интерпретировать (если исследуем взаимосвязь между количеством друзей в социальной сети и временем нахождения там, то - количество друзей * минуты);
  • Gxy принимает различные значения и сложно сказать, какое из них является большим, а какое - малым, так как нет точки отсчета.

В то же время Pxy безразмерная величина и изменяется от -1 (идеальная отрицательная взаимосвязь) до 1 (идеальная положительная взаимосвязь).

Рассмотрим пример подсчета Gxy и Pxy, для случайных величин X - погода и Y - длительность времени в пути. Пусть их совместное распределение имеет следующий вид (задача взята из книги "Введение в эконометрику" Д.Сток, М. Уотсон):

-2

Найдем сначала Ex, Ey, Dx,Dy, Sx,Sy. Для дискретной случайной величины в соответствии с ранее введенными формулами:

Ex = 0*0.3 + 1*0.7 = 0.7

Ey = 0*0.22 + 1 * 0.78 = 0.78

Для подсчета дисперсии Dx = E(x-Ex)**2 построим таблицу распределения случайной величины (x-Ex)**2:

-3

Dx = 0.49*0.3 + 0.09*0.7 = 0.147 + 0.063 = 0.21;

Sx = 0.4583

Аналогично для (y-Ey)**2 получаем таблицу:

-4

Dy = 0.133848 + 0.037752 = 0.1716

Sy = 0.4142

Gxy можно найти из первой таблицы в соответствии с формулой нахождения математического ожидания дискретной случайной величины (подробнее здесь):

-5

Из формулы видно, что слагаемое суммы положительно, если оба значения X и Y одновременно выше или ниже средних (своих математических ожиданий) и отрицательно - в противоположном случае. Соответственно, большая положительная ковариация возникает, если обе случайные величины стремятся одновременно принимать большие или низкие значения, а большая отрицательная - когда при больших значениях X величины Y малые и наоборот. Это согласуется с понятием взаимосвязи между X и Y.

Подсчитаем Gxy:

Gxy = (-0.7)(-0.78)*0.15 + (-0.7)(0.22)*0.15+(0.3)(-0.78)*0.07 +0.3*0.22*0.63 = 0.0819 - 0.0231 - 0.01638 + 0.04158 = 0.084

Pxy = 0.084/(0.4142*0.4583) = 0.4425

Таким образом, можно заключить, что имеется небольшая взаимосвязь между временем затрачиваемым на дорогу и погодными условиями.

Напоследок подчеркну, что коэффициенты ковариации и корреляции находят только линейные зависимости между величинами, поэтому на их основе некорректно делать однозначный вывод об отсутствии связи. Далее рассмотрим, как считать эти значения на практике, в отсутствие сведений о распределении вероятностей и, конечно, применять для этих целей язык программирования Python.

Делитель в комментариях об интересных зависимостях и неочевидных связях установленных вами.