10,1 тыс подписчиков

Детальный анализ данных с помощью всего нескольких строчек кода

21 марта 202221 мар 2022

486

1 мин

Оглавление

Pandas Profiling
При работе с данными с помощью Pandas Profiling, мы действуем по следующей схеме :
Sweetviz

Exploratory Data Analysis (EDA) является одним из наиболее важных шагов в процессе анализа данных. При попытке изучить данные может потребоваться несколько переборов фитч и комбинаций признаков. В этом посте я поделился тремя полезными библиотеками, которые предоставляют полезный функционал по работе с данными.

Pandas Profiling

При работе с данными с помощью Pandas Profiling, мы действуем по следующей схеме :

- исследование данных

- выделение фитч

- поиск корреляция данных

- заполнение отсутствующих значений

- разбиение датасета

pip install pandas-profiling

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport

df = pd.read_csv('filename.csv')

profile = ProfileReport(df, title='Pandas Profiling Report')

Sweetviz

Sweetviz — это библиотека Python с открытым исходным кодом, которая создает красивые визуализации для запуска EDA (исследовательского анализа данных) всего двумя строками кода.

Выходные данные представляют собой полностью автономное HTML-приложение.

Система Sweetviz построена вокруг быстрой визуализации целевых значений и сравнения наборов данных. Sweetviz нужен, чтобы помочь в быстром анализе целевых характеристик, анализе данных обучения и тестирования.

pip install sweetviz

import sweetviz as sv
import pandas as pd

train_df = pd.read_csv('filename.csv')

comparison_report = sv.compare([train_df, 'Train'], target_feat='target_name')

D-Tale

D-Tale — это комбинация серверной части Flask и интерфейса React, которая предоставляет простой способ просмотра и анализа структур данных Pandas. Он легко интегрируется с ipython и терминалами python/ipython. В настоящее время этот инструмент поддерживает такие датафреймы как Pandas DataFrame, Series, MultiIndex, DatetimeIndex и RangeIndex.