Как очищать и обрабатывать данные с помощью Python
Топовые пакеты Python для очистки данных
Источник: Nuances of Programming На какую же задачу дата-сайентисты тратят больше всего времени? Согласно исследованию CrowdFlower, они тратят 80% своего времени на очистку данных. Это неудивительно, ведь от того, насколько чистыми будут данные, зависит судьба всего проекта. Существуют методы, позволяющие сократить время очистки данных за счет использования специальных пакетов. Что это за пакеты и как они работают? Давайте разбираться. 1. Pyjanitor Pyjanitor — это реализация пакета Janitor R для очистки данных с помощью цепочечных методов в среде Python...
Очистка текста с помощью Python
Возьмем простейшую ситуацию, когда вы спарсили некоторые данные с Ф.И.О., номерами телефонов, email и именем пользователя с какого-либо сайта. Однако пользователи не особо любят соблюдать правила заполнения полей. Потому, иногда в Ф.И.О. присутствуют числа и различные символы, которые в дальнейшем затруднят поиск по таким данным. Да и номера телефонов могут быть записаны вразнобой. А потому, необходимо привести их к какому-то общему знаменателю. Следовательно, напрашивается логический вывод – данные необходимо очистить...