Из чего строится работа data scientist? Часто ребята, начинающие интересоваться DS представляют себе свою будущую работу как бесконечную сложную математику и выявление инсайтов, невидимых обычным смертным, почти на каждодневной основе.
Спешу вас разочаровать. Как я и писал в своем телеграм канале, чем чище данные - тем лучше обучится модель (будет лучше работать), поэтому львиная доля времени обычно уходит на чистку выборки.
Обычно большие данные - это очень неструктурированная информация: где-то данных вообще нету, где-то отдельные значения пропущены, а где-то люди вводят данные вручную (получается каша). Всё это надо чистить, но когда у тебя условные 10млн строк, то чистить надо автоматически. Обычно крутая чистка данных занимает 90% кодов и времени дата саентиста.
Пример. У нас есть поле "город" - вроде бы нормальная переменная и проблем возникать не должно, но при ближайшем рассмотрении мы находим следующие варианты написания города Санкт-Петербург:
Санкт Петербург - пропущено тире
Санкт Петербур - пропущена буква
Питер - сокращённое название
Санкт Питербург - ошибка в написании
Saint Petersburg - на иностранном языке
Saint P - неформальное название на английском
Исходя из того, что в России всего 1113 городов, представьте размер этого статистического ужаса.
Именно поэтому data science - это огромный пласт чистки данных, которую невозможно провести руками. Если вы идёте в эту профессию, то должны быть к этому готовы, потому что никто, кроме вас, этого не сможет сделать.