11 тыс подписчиков

3 ПРОСТЫХ СПОСОБА КАК ВИЗУАЛИЗИРОВАТЬ ДАННЫЕ В PANDAS

Визуализация данных является важным аспектом работы с данными. Рассмотрим несколько фнкций из арсенала Pandas.

Для примера будем возьмем датасет iris:

import pandas as pd

df = pd.read_csv("iris.data", header=None,

names=["sepal_length", "sepal_width", "petal_length","petal_width","class"])

df.head()

1) pandas.DataFrame.plot

Это самый простой способ быстро создавать диаграммы. Все, что вам нужно сделать, это добавить .plot() в конце имени DataFrame.

df.plot()

Пример: df["sepal_length"].plot.hist(figsize=(15,7))

2) pd.plotting.scatter_matrix()

Функция scatter_matrix из pandas plotting быстро создает матрицу точечных диаграмм (рассеяния). Таким образом, вы можете видеть взаимосвязь каждого столбца с каждым другим столбцом датафрейма.

Просто используйте функцию:

pd.plotting.scatter_matrix(df);

Пример:

pd.plotting.scatter_matrix(df[["sepal_length",

"sepal_width"]], figsize=(15,7));

3) pd.pivot_table().plot.barh()

Функция pivot_table() группирует указанные столбцы DataFrame вместе и суммирует другие указанные числовые столбцы в соответствии с предоставленной агрегатной функцией.

Для примера изменим немного наш код:

bins = [0,5,10]

labels = ["'0-5'","'6-10'"]

df['sepal_length_bucket'] = pd.cut(df['sepal_length'],

bins=bins, labels=labels)

df.head()

После этого вы можете использовать функцию pivot_table()

pd.pivot_table(data=df, index = ["class"],

columns=["sepal_length_bucket"],

values=["sepal_width"])

@machinelearning

3 ПРОСТЫХ СПОСОБА КАК ВИЗУАЛИЗИРОВАТЬ ДАННЫЕ В PANDAS Визуализация данных является важным аспектом работы с данными. Рассмотрим несколько фнкций из арсенала Pandas.

1 минута

17 марта 2023

323 читали