Библиотека визуализации Seaborn отличается "врожденной" красотой, так что графики даже с настройками по умолчанию будут выглядеть очень красиво. Рассмотрим наиболее распространенные из тех возможностей, которые она предлагает на примере популярного датасета о цветках Ириса.
Подключим нужные библиотеки и загрузим набор данных с помощью библиотеки Scikit-learn:
Распределения значений в столбцах
Дискретная величина
Если распределение дискретное, то удобно использовать функцию countplot:
Когда значения переменной и их частоты находятся в разных столбцах, используйте barplot:
Обратите внимание, что в этой версии в функцию передаются названия столбцов датафрейма (а не колонки) и он сам в параметре data, что также допустимо.
Непрерывная величина
Для визуализации распределения непрерывных переменных можно обратиться к displot. Отобразим гистограмму, оценку плотности распределения и кумулятивной функции распределения:
Обратите внимание, что вывод displot регулируется параметром kind. Для данных типов графиков существуют собственные функции с "говорящими" названиями histplot, kdeplot, ecdfplot.
А так можно на одном графике получить и гистограмму, и плотность (kde=True):
В ряде функций Seaborn разрешает использовать параметр hue, который позволяет выводить графики для значений этого столбца независимо:
Здесь столбцы перекрываются, что немного осложняет анализ. Однако видно, что значения 'sepal length (cm)' для setosa отличаются от других цветков.
Точечное распределение
Диаграммы рассеяния строятся, используя scatterplot:
Обратите внимание, что здесь подмеченная выше тенденция так же видна.
Попарное распределение
Похожую на предыдущий график визуализацию, но для всех пар входящих в датафрейм переменных можно построить функцией pairplot:
Обратите внимание на регулировку размера графика.
Линейный график с регрессией
С помощью Seaborn можно строить график зависимости y от x и одновременно регрессионную прямую с помощью regplot:
Простой график зависимости
Самый простой график для связи точек с заданными координатами задается функцией lineplot: