102 читали · 2 года назад
Топовые пакеты Python для очистки данных
Источник: Nuances of Programming На какую же задачу дата-сайентисты тратят больше всего времени? Согласно исследованию CrowdFlower, они тратят 80% своего времени на очистку данных. Это неудивительно, ведь от того, насколько чистыми будут данные, зависит судьба всего проекта. Существуют методы, позволяющие сократить время очистки данных за счет использования специальных пакетов. Что это за пакеты и как они работают? Давайте разбираться. 1. Pyjanitor Pyjanitor — это реализация пакета Janitor R для очистки данных с помощью цепочечных методов в среде Python...
692 читали · 2 года назад
Python методы работы с текстовыми данными c Pandas
Если вы работаете с текстовыми данными, изучите эти методы Pandas. Текстовые данные обычно несут больше информации, чем числа. Как бы мне ни нравилось работать с числами, текстовые данные постоянно присутствуют в моем рабочем процессе. Я не измерял и не анализировал их, но мне кажется, что количество текстовых данных у меня больше, чем числовых. Наиболее существенное различие между текстовыми и числовыми данными заключается в том, сколько и предварительной обработки они требуют. Числовые данные обычно приходят в формате, который можно напрямую использовать в анализе или моделировании данных...