Найти тему
Властелин машин

Библиотека missingno для исследования пропусков

Оглавление

Рассмотрим возможности инструмента missingno для изучения пропусков в датафрейме. Сначала сгенерируем тренировочный датасет:

matrix

Функция matrix строит изображение, по которому можно визуально определить расположение пропусков в строках. Линия справа отражает форму заполненности, отмечая строки с минимальным и максимальным количеством заполнений:

-2

bar

bar - это визуализация пропусков по колонкам. Шкала слева отображает долю наблюдений, справа - их абсолютное количество, а сверху - количество заполненных элементов по колонкам:

-3

heatmap

Тепловая карта heatmap показывает силу корреляции пропусков в разных колонках:

-4

Под капотом считается df.isnull().corr(), при этом выбрасываются переменные, которые полностью заполнены или не заполнены:

-5

dendrogram

Еще одним инструментом получения знаний о взаимосвязи пропусков является построение дендрограммы, в которой переменные разбиваются на кластеры, а потом итеративно наиболее связанные объединяются в дополнительные кластера:

-6

Дендрограмма строится на основе иерархической кластеризации, в которой в качестве наблюдений используются колонки, а признаков - индикатор наличия/отсутствия пропусков в конкретных ячейках:

-7

-8

-9