Источник: Nuances of Programming Часть 1, Часть 2. Очистка данных В любом проекте приходится заниматься «чисткой данных». К следующему этапу можно переходить только после приведения в порядок ваших данных. Чаще всего пропущенные данные просто добавляют. Вы можете дополнить недостающие данные разными способами: по моде, среднему значению или медиане. Пробуйте разные способы и выбирайте наиболее эффективный, абсолютного правила нет. Обычно для категориальных признаков используют только моду, а для числовых — среднее значение или медиану...
Когда читаешь книгу или слушаешь учебный курс про анализ данных, нередко возникает чувство, что перед тобой какие-то отдельные части картины, которые никак не складываются воедино. Вас может пугать перспектива сделать следующий шаг и целиком решить какую-то задачу с помощью машинного обучения, но с помощью этой серии статей вы обретёте уверенность в способности решить любую задачу в сфере data science. Чтобы у вас в голове наконец сложилась цельная картина, мы предлагаем разобрать от начала до конца проект применения машинного обучения с использованием реальных данных...