Из чего строится работа data scientist? Часто ребята, начинающие интересоваться DS представляют себе свою будущую работу как бесконечную сложную математику и выявление инсайтов, невидимых обычным смертным, почти на каждодневной основе. Спешу вас разочаровать. Как я и писал в своем телеграм канале, чем чище данные - тем лучше обучится модель (будет лучше работать), поэтому львиная доля времени обычно уходит на чистку выборки. Обычно большие данные - это очень неструктурированная информация: где-то данных вообще нету, где-то отдельные значения пропущены, а где-то люди вводят данные вручную (получается каша). Всё это надо чистить, но когда у тебя условные 10млн строк, то чистить надо автоматически. Обычно крутая чистка данных занимает 90% кодов и времени дата саентиста. Пример. У нас есть поле "город" - вроде бы нормальная переменная и проблем возникать не должно, но при ближайшем рассмотрении мы находим следующие варианты написания города Санкт-Петербург: Санкт Петербург - пропущено ти