104 подписчика

Предобработка данных. Работа с пропусками. Python.

2 июля 20212 июл 2021

3367

1 мин

Пропуск это просто отсутствие значения. Это часто встречающееся явление в датасетах. Да, вещь не приятная и ухудшает данные. Но ничего с этим не поделать. Мы можем только с ними поработать и улучшить качество нашего датасета. Есть такая замечательная библиотека в python как pandas. С её помощью мы и будем работать с пропусками. Так же нам понадобится библиотека numpy. Загружаем библиотеки и создаем небольшой датасет с пропусками: Теперь у нас есть настоящий датасет с пропусками. С ним то мы и поработаем. Для начала найдём эти самые пропуски. В этом нам поможет метод .isna(). Посмотрим как это будет выглядеть: Удаление целых столбцов или строк довольно грубое решение. Но если в столбце или строке очень много пропусков, они становятся для нас бесполезными и их можно безболезненно удалить. Здесь поможет метод .dropna(). Так мы удалим все строки/столбцы с пропусками: Есть способ удалить определенный столбец или строку. Для этого нужно передать список индексов (номеров строк или названий с

Есть такая замечательная библиотека в python как pandas. С её помощью мы и будем работать с пропусками. Так же нам понадобится библиотека numpy.

Загружаем библиотеки и создаем небольшой датасет с пропусками:

Теперь у нас есть настоящий датасет с пропусками. С ним то мы и поработаем. Для начала найдём эти самые пропуски. В этом нам поможет метод .isna(). Посмотрим как это будет выглядеть:

Удаление целых столбцов или строк довольно грубое решение. Но если в столбце или строке очень много пропусков, они становятся для нас бесполезными и их можно безболезненно удалить. Здесь поможет метод .dropna(). Так мы удалим все строки/столбцы с пропусками:

axis = 0 - удалить строку; axis = 1 - удалить столбец

Есть способ удалить определенный столбец или строку. Для этого нужно передать список индексов (номеров строк или названий столбцов) столбцов (или строк) в параметр subset:

Чаще необходимо пустые значения заменить данным. Метод fillna() заменяет пропуски константным значением:

Так же можно заменять пустые данные статистическими данными. Для этого мы и взяли библиотеку numpy - с её помощью будет просто и быстро их вытащить:

среднее значение np.mean();
максимальное значение np.max();
минимальное значение np.min();
медиана np.median().

P.S. Если, нашли ошибки, недочёты или хотите дополнить сказанное, всегда рада конструктивному мнению специалистов.

Гаджеты и электроника

5,73 млн интересуются