Пропуск это просто отсутствие значения. Это часто встречающееся явление в датасетах. Да, вещь не приятная и ухудшает данные. Но ничего с этим не поделать. Мы можем только с ними поработать и улучшить качество нашего датасета. Есть такая замечательная библиотека в python как pandas. С её помощью мы и будем работать с пропусками. Так же нам понадобится библиотека numpy. Загружаем библиотеки и создаем небольшой датасет с пропусками: Теперь у нас есть настоящий датасет с пропусками. С ним то мы и поработаем. Для начала найдём эти самые пропуски. В этом нам поможет метод .isna(). Посмотрим как это будет выглядеть: Удаление целых столбцов или строк довольно грубое решение. Но если в столбце или строке очень много пропусков, они становятся для нас бесполезными и их можно безболезненно удалить. Здесь поможет метод .dropna(). Так мы удалим все строки/столбцы с пропусками: Есть способ удалить определенный столбец или строку. Для этого нужно передать список индексов (номеров строк или названий с
Предобработка данных. Работа с пропусками. Python.
2 июля 20212 июл 2021
1982
1 мин