Найти тему
Data Science Hub

Основные виды графиков для анализа данных в pandas

Существует два основных типа структурированных данных: числовой и категориальный. Числовые данные подразделяются на непрерывные и дискретные.

Непрерывныеданные поддерживают арифметические операции и их можно сравнивать между собой. Например, мы можем найти их средние значение. Дискретныеданные, такие как количество событий, можно сравнивать, но арифметические операции над ними не будут иметь смысла.

Категориальные данные принимают фиксированные значения. Например, название штата, пол или религия. Особым случаем категориальных данных являются двоичные данные (например, 0 — женский, 1 — мужской).

Взаимосвязь этих типов данных можно показать с помощью нескольких основных видов графиков. Для обработки и анализа данных будем использовать библиотеку pandas.

1. Числовые признаки

1.1 Чтобы посмотреть распределение числового признака, принято строить гистограмму.

В pandas это команда DataFrame.hist(), где DataFrame – название таблицы структурированных данных.

Гистограмма делит все значения по ячейкам в некотором диапазоне и считает частоту, сколько раз нам встретились значения определенного диапазона.

Например, возраст людей в определенной таблице:

1.2 Для тех же целей можно использовать ядерную оценку плотности. Она представляет собой одну сплошную линию на графике, и похожа на сглаженную гистограмму:

Series.plot.kde(), где Series – столбец таблицы

-2

2. Категориальные признаки

Коробчатая диаграмма — «ящик с усами»

Границы ящика — 25% и 75% квартили, линия внутри ящика — медиана, концы «усов» находятся расстоянии в 1.5 межквартильных размаха в обе стороны, в этих границах лежит основная часть значений. Отдельные точки — это выбросы.

DataFrame.boxplot()

-3

3. Зависимость числовых признаков

Для отображения зависимости двух величин принято строить диаграмму рассеивания — scatter plot

DataFrame.plot.scatter()

Например, взаимосвязь роста и веса:

-4

Подробнее про ресурсы и новости Data Science будет рассказано в следующих постах. Добро пожаловать в мир науки о данных!