Разведочный анализ данных (Exploratory Data Analysis) – предварительное исследование Датасета (Dataset) с целью определения его основных характеристик, взаимосвязей между признаками, а также сужения набора методов, используемых для создания Модели (Model) Машинного обучения (ML). Итак, в первой части статьи мы познакомились со следующими этапами разведочного анализа: И теперь продолжим глубже знакомиться с особенностями датасета. Одномерный анализ Описательная статистика Прежде чем применять те или иные методы обучения, нам необходимо удостовериться, что они применимы к текущему датасету. Раздел описательной статистики включает в себя проверку на нормальность распределения и определение прочих статистических метрик. С этим нам поможет замечательная библиотека pandas-profiling. Установим самую свежую версию во избежание ошибок: Запустим профайлер и передадим df в качестве аргумента: Профайлер высчитывает основные статистические метрики для каждой переменной и датасета в целом: К примеру
EDA в Машинном обучении простыми словами, часть 2
26 декабря 202026 дек 2020
407
3 мин