Найти в Дзене

Предобработка данных. Работа с пропусками. Python.

Пропуск это просто отсутствие значения. Это часто встречающееся явление в датасетах. Да, вещь не приятная и ухудшает данные. Но ничего с этим не поделать. Мы можем только с ними поработать и улучшить качество нашего датасета.

Есть такая замечательная библиотека в python как pandas. С её помощью мы и будем работать с пропусками. Так же нам понадобится библиотека numpy.

Загружаем библиотеки и создаем небольшой датасет с пропусками:

Теперь у нас есть настоящий датасет с пропусками. С ним то мы и поработаем. Для начала найдём эти самые пропуски. В этом нам поможет метод .isna(). Посмотрим как это будет выглядеть:

Везде где были пропуски мы видим True.
Везде где были пропуски мы видим True.

Удаление целых столбцов или строк довольно грубое решение. Но если в столбце или строке очень много пропусков, они становятся для нас бесполезными и их можно безболезненно удалить. Здесь поможет метод .dropna(). Так мы удалим все строки/столбцы с пропусками:

axis = 0 - удалить строку; axis = 1 - удалить столбец
axis = 0 - удалить строку; axis = 1 - удалить столбец

Есть способ удалить определенный столбец или строку. Для этого нужно передать список индексов (номеров строк или названий столбцов) столбцов (или строк) в параметр subset:

-4

Чаще необходимо пустые значения заменить данным. Метод fillna() заменяет пропуски константным значением:

-5

Так же можно заменять пустые данные статистическими данными. Для этого мы и взяли библиотеку numpy - с её помощью будет просто и быстро их вытащить:

  • среднее значение np.mean();
  • максимальное значение np.max();
  • минимальное значение np.min();
  • медиана np.median().
-6

P.S. Если, нашли ошибки, недочёты или хотите дополнить сказанное, всегда рада конструктивному мнению специалистов.