176 прочтений · 1 год назад
Как определить взаимосвязь между категориями
Стандартным приемом для определения взаимосвязи между числовыми колонками является вычисление коэффициента корреляции Пирсона, однако с категориальными данными такой финт не пройдет, так как они, как правило, не упорядочены (читай тут). Рассмотрим способ, который можно использовать. Сначала сгенерируем тестовый набор данных, о присутствии автомобилей разных марок в заданных локациях: import numpy as np import pandas as pd np.random.seed(0) autos_l = ['BMW', 'Mercedes', 'VOLGA', 'GEEP'] locations_l = ['Russia', 'Germany', 'USA'] prob_d = {'BMW':[0...
2,6K прочтений · 1 год назад
Передовой способ вычисления корреляции с библиотекой phik
В мире все взаимосвязано и мы — часть этого круговорота. А потому в Мировом Древе нигде не может быть одиноко торчащей ветки: где-то и она связана с какой-то другой ветвью (Брайанна Рид). Раскрываемый в статье метод более универсален, чем многие другие, так как позволяется вычислять взаимосвязи между различными типами признаков (категориальными, непрерывными и их комбинациями), в нем используются передовые статистические методики и его легко применить с библиотекой phik. Суть метода базируется на...