Найти в Дзене
Аналитика данных

Способы визуализации пропущенных данных

Код python: import matplotlib.pyplot as plt
import pandas as pd df = pd.read_excel('src/sales.xlsx')
df.info() // Out: 0 id_order 35554 non-null object
1 id_buyer 35554 non-null object
2 id_manager 35554 non-null object
3 id_good 35554 non-null object
4 unit 35554 non-null object
5 date 35554 non-null object
6 quantity 35520 non-null float64
7 amount 32230 non-null float64
8 cost_price 34287 non-null float64
9 costs 26139 non-null float64 import seaborn as sns plt.figure(figsize=(12, 8))
sns.heatmap(df.isnull(), cmap='Blues')
plt.title('Пропуски в данных', fontsize=12)
plt.xticks(fontsize=8)
plt.yticks(fontsize=8)
plt.show() import missingno as msno msno.matrix(df, figsize=(12, 8))
plt.title('Пропуски в данных', fontsize=12)
plt.xticks(fontsize=8)
plt.yticks(fontsize=8)
plt.show() import plotly.express as px missing_df = df.isnull().sum().reset_index()
missing_df.columns = ['Колонки', 'Количество пропусков']
missing_df = missing_df[missing_df['Количество пропусков'] > 0]
fig = px.bar(
Оглавление

Код python:

import matplotlib.pyplot as plt
import pandas as pd

1. Импорт данных

df = pd.read_excel('src/sales.xlsx')
df.info()

// Out:

0 id_order 35554 non-null object
1 id_buyer 35554 non-null object
2 id_manager 35554 non-null object
3 id_good 35554 non-null object
4 unit 35554 non-null object
5 date 35554 non-null object
6 quantity 35520 non-null float64
7 amount 32230 non-null float64
8 cost_price 34287 non-null float64
9 costs 26139 non-null float64

2. Библиотека seaborn

import seaborn as sns
plt.figure(figsize=(12, 8))
sns.heatmap(df.isnull(), cmap='Blues')
plt.title('Пропуски в данных', fontsize=12)
plt.xticks(fontsize=8)
plt.yticks(fontsize=8)
plt.show()
seaborn
seaborn

3. Библиотека missingno

import missingno as msno
msno.matrix(df, figsize=(12, 8))
plt.title('Пропуски в данных', fontsize=12)
plt.xticks(fontsize=8)
plt.yticks(fontsize=8)
plt.show()
missingno
missingno

4. Библиотека plotly.express

import plotly.express as px
missing_df = df.isnull().sum().reset_index()
missing_df.columns = ['Колонки', 'Количество пропусков']
missing_df = missing_df[missing_df['Количество пропусков'] > 0]
fig = px.bar(
missing_df, x='Колонки', y='Количество пропусков', title='Пропуски по столбцам',
color='Количество пропусков', color_continuous_scale='GnBu')
fig.show()
plotly.express
plotly.express