Пропуски - отсутсвие значения в данных. Откуда они берутся? Обычно это просто человеческий фактор. Ну ошибся человек, с кем не бывает. Что-то забыли внести, что-то не заметили, не внимательно перенесли данные из другого документа, может случилось так, что сотрудник случайно удалил некоторые данные. Например человек заполнял опросник и какие-то данные забыл или не захотел указывать, теперь части данных в его анкете нет, вот и возникнут пропуски в данных.
Как же бороться с пропусками, чем мы можем помочь данным, в таком случае?
- Можно просто пропуски удалить. Можно удалить строку в которой встречается пропуск, но только если таких строк мало. Можно удалить столбцы/признаки, но только если пропусков в признаке много и это никак не повлияет на результат.
- Пропуски можно заменить. Есть много вариантов какое значение поставить на место пропуска. Распространенные методы это замена пропуска на среднее значение между соседними данными. Или записать самый распространённый вариант.
- Записать новое значение. Как вариант - заменяем пропуски на новые значения. Например в признаке пол, где он не указан записать "не определён".
- Заменить алгоритмами ML. Очень интересный вариант. Считая признак с пропусками целевой переменной мы можем обучить модель предсказывать пропущенные значения.
И так данные с пропусками - данные, в которых пропущена часть значений для нецелевой переменной.
P.S. Если, нашли ошибки, недочёты или хотите дополнить сказанное, всегда рада конструктивному мнению специалистов.