Рассмотрим возможности инструмента missingno для изучения пропусков в датафрейме. Сначала сгенерируем тренировочный датасет:
matrix
Функция matrix строит изображение, по которому можно визуально определить расположение пропусков в строках. Линия справа отражает форму заполненности, отмечая строки с минимальным и максимальным количеством заполнений:
bar
bar - это визуализация пропусков по колонкам. Шкала слева отображает долю наблюдений, справа - их абсолютное количество, а сверху - количество заполненных элементов по колонкам:
heatmap¶
Тепловая карта heatmap показывает силу корреляции пропусков в разных колонках:
Под капотом считается df.isnull().corr(), при этом выбрасываются переменные, которые полностью заполнены или не заполнены:
dendrogram
Еще одним инструментом получения знаний о взаимосвязи пропусков является построение дендрограммы, в которой переменные разбиваются на кластеры, а потом итеративно наиболее связанные объединяются в дополнительные кластера:
Дендрограмма строится на основе иерархической кластеризации, в которой в качестве наблюдений используются колонки, а признаков - индикатор наличия/отсутствия пропусков в конкретных ячейках: