В современную цифровую эпоху нас окружают потоки информации, от понимания которых зависит наша успешность и благосостояние. В особенности изучением данных озаботились крупные и средние компании, которые стремятся максимизировать прибыль путем оптимизации бизнес-процессов. Базовым этапом анализа информации является определение зависимости между некоторыми явлениями.
Наиболее простым и распространенным способом для этого служит нахождение коэффициентов ковариации (Gxy) и корреляции (Pxy). Формально они определяются как:
- Gxy = E(X-Ex)(Y-Ey), где E - математическое ожидание, соответственно Ex, Ey - математические ожидания случайных величин X и Y (подробнее о понятиях рассказывал здесь);
Как можно заметить, эти два коэффициента имеют непосредственную связь друг с другом. При этом Pxy введен больше для удобства из-за некоторых недостатков Gxy, заключающихся в следующем:
- единицей измерения коэффициента ковариации является произведение единиц измерения входящих величин, что сложно интерпретировать (если исследуем взаимосвязь между количеством друзей в социальной сети и временем нахождения там, то - количество друзей * минуты);
- Gxy принимает различные значения и сложно сказать, какое из них является большим, а какое - малым, так как нет точки отсчета.
В то же время Pxy безразмерная величина и изменяется от -1 (идеальная отрицательная взаимосвязь) до 1 (идеальная положительная взаимосвязь).
Рассмотрим пример подсчета Gxy и Pxy, для случайных величин X - погода и Y - длительность времени в пути. Пусть их совместное распределение имеет следующий вид (задача взята из книги "Введение в эконометрику" Д.Сток, М. Уотсон):
Найдем сначала Ex, Ey, Dx,Dy, Sx,Sy. Для дискретной случайной величины в соответствии с ранее введенными формулами:
Ex = 0*0.3 + 1*0.7 = 0.7
Ey = 0*0.22 + 1 * 0.78 = 0.78
Для подсчета дисперсии Dx = E(x-Ex)**2 построим таблицу распределения случайной величины (x-Ex)**2:
Dx = 0.49*0.3 + 0.09*0.7 = 0.147 + 0.063 = 0.21;
Sx = 0.4583
Аналогично для (y-Ey)**2 получаем таблицу:
Dy = 0.133848 + 0.037752 = 0.1716
Sy = 0.4142
Gxy можно найти из первой таблицы в соответствии с формулой нахождения математического ожидания дискретной случайной величины (подробнее здесь):
Из формулы видно, что слагаемое суммы положительно, если оба значения X и Y одновременно выше или ниже средних (своих математических ожиданий) и отрицательно - в противоположном случае. Соответственно, большая положительная ковариация возникает, если обе случайные величины стремятся одновременно принимать большие или низкие значения, а большая отрицательная - когда при больших значениях X величины Y малые и наоборот. Это согласуется с понятием взаимосвязи между X и Y.
Подсчитаем Gxy:
Gxy = (-0.7)(-0.78)*0.15 + (-0.7)(0.22)*0.15+(0.3)(-0.78)*0.07 +0.3*0.22*0.63 = 0.0819 - 0.0231 - 0.01638 + 0.04158 = 0.084
Pxy = 0.084/(0.4142*0.4583) = 0.4425
Таким образом, можно заключить, что имеется небольшая взаимосвязь между временем затрачиваемым на дорогу и погодными условиями.
Напоследок подчеркну, что коэффициенты ковариации и корреляции находят только линейные зависимости между величинами, поэтому на их основе некорректно делать однозначный вывод об отсутствии связи. Далее рассмотрим, как считать эти значения на практике, в отсутствие сведений о распределении вероятностей и, конечно, применять для этих целей язык программирования Python.
Делитель в комментариях об интересных зависимостях и неочевидных связях установленных вами.