Найти тему
Властелин машин

Отображаем зависимость численной колонки от категориальной с catplot

Рассмотрим, как визуализировать зависимость численной переменной (много значений) от категориальной. При выводе точек с соответствующими координатами по x и y картинка может быть не информативной, например, значений выживаемости по классам пассажиров Титаника:

Простым решением является подсчет агрегированного значения по численной колонке:

-2

Однако библиотека Seaborn предлагает функцию catplot, упрощающую визуализацию категорий. Тот же график можно нарисовать с catplot, передав ей в качестве x и y те же значения, что и scatterplot, но дополнительно указав тип графика в параметре kind ('point', 'bar', 'violin'):

-3

kind='point' выдает похожую информацию чуть в другом виде и с началом не с 0 по оси y:

-4

Для вышеуказанных типов можно задавать параметр estimator, который по умолчанию показывает среднее (mean):

-5

kind='violin' строит распределения значений по каждой категории:

-6

По значениям категории можно строить отдельные графики (параметр col или row). Это добавляет еще одно измерение для визуализации. Выведем долю выживших в зависимости от класса и пола:

-7

Можно заметить, почти 100% выживаемость женщин первого класса, о чем при группировке только по классам нельзя было сказать.

-8