18 подписчиков

Из чего складывается работа data scientist?

20 марта 202020 мар 2020

1 мин

Из чего строится работа data scientist? Часто ребята, начинающие интересоваться DS представляют себе свою будущую работу как бесконечную сложную математику и выявление инсайтов, невидимых обычным смертным, почти на каждодневной основе. Спешу вас разочаровать. Как я и писал в своем телеграм канале, чем чище данные - тем лучше обучится модель (будет лучше работать), поэтому львиная доля времени обычно уходит на чистку выборки. Обычно большие данные - это очень неструктурированная информация: где-то данных вообще нету, где-то отдельные значения пропущены, а где-то люди вводят данные вручную (получается каша). Всё это надо чистить, но когда у тебя условные 10млн строк, то чистить надо автоматически. Обычно крутая чистка данных занимает 90% кодов и времени дата саентиста. Пример. У нас есть поле "город" - вроде бы нормальная переменная и проблем возникать не должно, но при ближайшем рассмотрении мы находим следующие варианты написания города Санкт-Петербург: Санкт Петербург - пропущено ти

Спешу вас разочаровать. Как я и писал в своем телеграм канале, чем чище данные - тем лучше обучится модель (будет лучше работать), поэтому львиная доля времени обычно уходит на чистку выборки.

Обычно большие данные - это очень неструктурированная информация: где-то данных вообще нету, где-то отдельные значения пропущены, а где-то люди вводят данные вручную (получается каша). Всё это надо чистить, но когда у тебя условные 10млн строк, то чистить надо автоматически. Обычно крутая чистка данных занимает 90% кодов и времени дата саентиста.

Пример. У нас есть поле "город" - вроде бы нормальная переменная и проблем возникать не должно, но при ближайшем рассмотрении мы находим следующие варианты написания города Санкт-Петербург:

Санкт Петербург - пропущено тире

Санкт Петербур - пропущена буква

Питер - сокращённое название

Санкт Питербург - ошибка в написании

Saint Petersburg - на иностранном языке

Saint P - неформальное название на английском

Исходя из того, что в России всего 1113 городов, представьте размер этого статистического ужаса.

Именно поэтому data science - это огромный пласт чистки данных, которую невозможно провести руками. Если вы идёте в эту профессию, то должны быть к этому готовы, потому что никто, кроме вас, этого не сможет сделать.

Если нравится - подписывайтесь на мой телеграмм!