Найти тему
Властелин машин

Визуализация накладывающихся точек

Рассмотрим простой способ визуализации зависимости двух переменных, когда точек на графике слишком много и они накладываются друг на друга, что значительно осложняет интерпретацию результатов. Для демонстрации используем набор данных о стоимости калифорнийской недвижимости:

Отобразим связь между медианным доходом и ценой:

-2

В целом тенденция прослеживается, однако график "перенасыщенный". Самое простое - разбить одну из величин на группы и смотреть среднее/медианное значение другой для каждой группы:

-3

Кроме округления для разбиения можно использовать функции qcut cut библиотеки Pandas:

-4