Найти тему
10,2 тыс подписчиков

3 ПРОСТЫХ СПОСОБА КАК ВИЗУАЛИЗИРОВАТЬ ДАННЫЕ В PANDAS


Визуализация данных является важным аспектом работы с данными. Рассмотрим несколько фнкций из арсенала Pandas.

Для примера будем возьмем датасет iris:

import pandas as pd
df = pd.read_csv("iris.data", header=None,
names=["sepal_length", "sepal_width", "petal_length","petal_width","class"])
df.head()

1) pandas.DataFrame.plot
Это самый простой способ быстро создавать диаграммы. Все, что вам нужно сделать, это добавить .plot() в конце имени DataFrame.

df.plot()

Пример: df["sepal_length"].plot.hist(figsize=(15,7))

2) pd.plotting.scatter_matrix()
Функция scatter_matrix из pandas plotting быстро создает матрицу точечных диаграмм (рассеяния). Таким образом, вы можете видеть взаимосвязь каждого столбца с каждым другим столбцом датафрейма.

Просто используйте функцию:

pd.plotting.scatter_matrix(df);

Пример:
pd.plotting.scatter_matrix(df[["sepal_length",
"sepal_width"]], figsize=(15,7));

3) pd.pivot_table().plot.barh()
Функция pivot_table() группирует указанные столбцы DataFrame вместе и суммирует другие указанные числовые столбцы в соответствии с предоставленной агрегатной функцией.
Для примера изменим немного наш код:

bins = [0,5,10]
labels = ["'0-5'","'6-10'"]
df['sepal_length_bucket'] = pd.cut(df['sepal_length'],
bins=bins, labels=labels)
df.head()
После этого вы можете использовать функцию pivot_table()

pd.pivot_table(data=df, index = ["class"],
columns=["sepal_length_bucket"],
values=["sepal_width"])

3 ПРОСТЫХ СПОСОБА КАК ВИЗУАЛИЗИРОВАТЬ ДАННЫЕ В PANDAS  Визуализация данных является важным аспектом работы с данными. Рассмотрим несколько фнкций из арсенала Pandas.
1 минута
305 читали