Хирьянов Т.Ф. - Основы программирования и анализа данных на Python - 10. Библиотека Pandas
Предобработка данных. Работа с пропусками. Python.
Пропуск это просто отсутствие значения. Это часто встречающееся явление в датасетах. Да, вещь не приятная и ухудшает данные. Но ничего с этим не поделать. Мы можем только с ними поработать и улучшить качество нашего датасета. Есть такая замечательная библиотека в python как pandas. С её помощью мы и будем работать с пропусками. Так же нам понадобится библиотека numpy. Загружаем библиотеки и создаем небольшой датасет с пропусками: Теперь у нас есть настоящий датасет с пропусками. С ним то мы и поработаем...
Очистка данных при помощи Pandas
Очистка данных это процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора записей, таблицы или базы данных. Процесс включает в себя выявление неполных, неправильных, неточных или несущественных данных, а затем замену, изменение или удаление «загрязненных» данных. Данные являются одним из самых важных ресурсов компании. Качество данных, которыми оперирует компания, может привести к ее взлету или падению. Полученные первичные сырые данные не представляют для компании большой ценности...