Найти тему
Властелин машин

Обязательные проверки перед анализом данных с Pandas

Оглавление

Некоторые этапы предварительной обработки данных необходимо выполнять в любом проекте, о них и пойдет речь в этой статье. В качестве демонстрационного примера будем использовать следующий датафрейм:

Проверка незаполненных значений

Воспользуемся комбинацией методов isna и sum. isna для каждой ячейки датафрейма вернет логическое значение, правда - если она не заполнена и ложь в противоположном случае:

-2

а sum преобразует True в 1, False в 0 и суммирует по столбцам:

-3

Проверка дубликатов

Вызываем метод duplicated, получаем логические значения (однако уже на уровне целой строки) и сразу подсчитываем как в примере выше методом sum:

-4

Идентификация выбросов

Выбивающиеся из логики значения (слишком большие и малые) для числовых столбцов можно попытаться найти методом describe:

-5

Также для решения этой задачи пригодится визуализация распределений (подробнее писал ранее).

Еще много интересного

Общая информация о таблице (в том числе, количество заполненных значений по столбцам) возвращается методом info:

-6

-7