Что означает корреляция? Корреляция – это взаимосвязь двух параметров друг с другом. То есть насколько тесно изменения одного параметра связаны с изменением другого параметра. Это понятие используется во многих научных дисциплинах: биологии, математике, статистике, физике, ну, и разумеется, в инвестициях. Корреляция рассчитывается на основании статистической взаимосвязи между двумя объектами. Она измеряет степень линейной зависимости двух переменных. Например, рост и вес человека взаимосвязаны, и более высокие люди, как правило, тяжелее, чем более низкие...
Стандартным приемом для определения взаимосвязи между числовыми колонками является вычисление коэффициента корреляции Пирсона, однако с категориальными данными такой финт не пройдет, так как они, как правило, не упорядочены (читай тут). Рассмотрим способ, который можно использовать. Сначала сгенерируем тестовый набор данных, о присутствии автомобилей разных марок в заданных локациях: import numpy as np
import pandas as pd
np.random.seed(0)
autos_l = ['BMW', 'Mercedes', 'VOLGA', 'GEEP']
locations_l = ['Russia', 'Germany', 'USA']
prob_d = {'BMW':[0...