Найти в Дзене
Властелин машин

Работа со скоплениями пропусков

Одна из распространенных стратегий работы с пропущенными значениями заключается в удалении объектов с большими их скоплениями и заполнении только для оставшейся части не таких "загрязненных" записей. Это делается, чтобы не порождать много синтетических точек, для которых сразу несколько полей будут заполненными. Рассмотрим простой способ визуализации строк, имеющих по несколько пропусков. Сначала сгенерируем рабочий датасет:

Нам понадобится метод isnull, который каждый элемент преобразует в логическое значение в зависимости от того, является ли он пропуском:

-2

Теперь можно отобразить пропуски с помощью тепловой карты Seaborn и двух цветов (пропуск/не пропуск):

-3

Также может оказаться полезна визуализация корреляции в нулевых значениях колонок:

-4

Если после вы обнаружили, что имеются неприемлемые скопления пропусков в некоторых записях, можно их отфильтровать по условию одновременного наличия не менее N записей из заданных. Для этого задайте параметры subset и thresh метода dropna:

-5

-6