Exploratory Data Analysis (EDA) является одним из наиболее важных шагов в процессе анализа данных. При попытке изучить данные может потребоваться несколько переборов фитч и комбинаций признаков. В этом посте я поделился тремя полезными библиотеками, которые предоставляют полезный функционал по работе с данными.
Pandas Profiling
При работе с данными с помощью Pandas Profiling, мы действуем по следующей схеме :
- исследование данных
- выделение фитч
- поиск корреляция данных
- заполнение отсутствующих значений
- разбиение датасета
pip install pandas-profiling
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
df = pd.read_csv('filename.csv')
profile = ProfileReport(df, title='Pandas Profiling Report')
Sweetviz
Sweetviz — это библиотека Python с открытым исходным кодом, которая создает красивые визуализации для запуска EDA (исследовательского анализа данных) всего двумя строками кода.
Выходные данные представляют собой полностью автономное HTML-приложение.
Система Sweetviz построена вокруг быстрой визуализации целевых значений и сравнения наборов данных. Sweetviz нужен, чтобы помочь в быстром анализе целевых характеристик, анализе данных обучения и тестирования.
pip install sweetviz
import sweetviz as sv
import pandas as pd
train_df = pd.read_csv('filename.csv')
comparison_report = sv.compare([train_df, 'Train'], target_feat='target_name')
D-Tale
D-Tale — это комбинация серверной части Flask и интерфейса React, которая предоставляет простой способ просмотра и анализа структур данных Pandas. Он легко интегрируется с ipython и терминалами python/ipython. В настоящее время этот инструмент поддерживает такие датафреймы как Pandas DataFrame, Series, MultiIndex, DatetimeIndex и RangeIndex.
pip install dtale
import dtale
df = pd.read_csv('filename.csv')
dtale.show(df)
Ссылки на библиотеки:
[1] https://github.com/ydataai/pandas-profiling
[2] https://pypi.org/project/sweetviz/
[3] https://github.com/man-group/dtale