435 читали · 3 года назад
Топовые пакеты Python для очистки данных
Источник: Nuances of Programming На какую же задачу дата-сайентисты тратят больше всего времени? Согласно исследованию CrowdFlower, они тратят 80% своего времени на очистку данных. Это неудивительно, ведь от того, насколько чистыми будут данные, зависит судьба всего проекта. Существуют методы, позволяющие сократить время очистки данных за счет использования специальных пакетов. Что это за пакеты и как они работают? Давайте разбираться. 1. Pyjanitor Pyjanitor — это реализация пакета Janitor R для очистки данных с помощью цепочечных методов в среде Python...
1760 читали · 6 лет назад
Делаем проект по машинному обучению на Python. Часть 1
Когда читаешь книгу или слушаешь учебный курс про анализ данных, нередко возникает чувство, что перед тобой какие-то отдельные части картины, которые никак не складываются воедино. Вас может пугать перспектива сделать следующий шаг и целиком решить какую-то задачу с помощью машинного обучения, но с помощью этой серии статей вы обретёте уверенность в способности решить любую задачу в сфере data science. Чтобы у вас в голове наконец сложилась цельная картина, мы предлагаем разобрать от начала до конца проект применения машинного обучения с использованием реальных данных...