3 года назад
Очистка данных при помощи Pandas
Очистка данных это процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора записей, таблицы или базы данных. Процесс включает в себя выявление неполных, неправильных, неточных или несущественных данных, а затем замену, изменение или удаление «загрязненных» данных. Данные являются одним из самых важных ресурсов компании. Качество данных, которыми оперирует компания, может привести к ее взлету или падению. Полученные первичные сырые данные не представляют для компании большой ценности...
435 читали · 3 года назад
Топовые пакеты Python для очистки данных
Источник: Nuances of Programming На какую же задачу дата-сайентисты тратят больше всего времени? Согласно исследованию CrowdFlower, они тратят 80% своего времени на очистку данных. Это неудивительно, ведь от того, насколько чистыми будут данные, зависит судьба всего проекта. Существуют методы, позволяющие сократить время очистки данных за счет использования специальных пакетов. Что это за пакеты и как они работают? Давайте разбираться. 1. Pyjanitor Pyjanitor — это реализация пакета Janitor R для очистки данных с помощью цепочечных методов в среде Python...