Раньше элитой в фирмах были программисты, теперь это data scientists (DS, дата-сайентисты, Специалисты по большим данным). Этот переход состоялся недавно. На волне «хайпа» в данную профессию потянулись многие и без математического бэкграунда. Есть много бесплатных курсов по профессии от Яндекса, Физтеха, Coursera и edX (для понимающих английский язык, хотя на первом есть хороший курс на русском).
На самом деле дата-сайентисты, так же как и программисты занимаются обслуживанием бизнес-процессов организации. Понимание откуда организация берет деньги и как это поддерживать — это главное для специалиста. Бездумное использование нейронных сетей или трендовых алгоритмов само по себе не нужно никому. Никакой элитарности здесь нет. А есть рутина по работе с данными — поиск выбросов, проверка согласованности.
Обычные рабочие процессы для исследователя:
- идентификация проблем поиска (совместно с разработчиками и менеджерами );
- анализ существующих решений;
- разработка новых наукоемких решений;
- проведение экспериментов;
- написание статей, описывающих эти решения и эксперименты.
А вот что обычно требуется для data scientists:
- Высшее техническое образование;
- актуальные знания хотя бы в одной из этих областей: Machine Learning, Data Mining, Information Retrieval, Natural Language Processing, Social Networks;
- желание регулярно читать и анализировать научные публикации по этим темам;
- навыки программирования — для реализации существующих и новых алгоритмов, проведения экспериментов и создания тестовых прототипов;
- опыт прикладного применения математической статистики, в том числе работы с сильно зашумленными данными;
- опыт разработки на C++, Python или похожих языках программирования;
- отличный письменный и хороший устный английский язык.
- опыт написания научных статей
- опыт участия в международных научных конкурсах
- опыт участия в международных научных конкурсах
Операции с данными очень важны в финтех, ритейле и других направлениях:
- Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
- Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
- Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Здесь применяются нейросети и глубокое обучение.
- Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.
- Обработка аудиосигнала
Большие данные стали новой нефтью. Особенно это заметно у гигантов ИТ (Яндекс, Гугл, Фейсбук).
Если Вам интересно ознакомиться с данным направлением вот хорошие отобранные курсы по Машинному обучению, Большим данным и DS:
- последующее трудоустройство от Яндекса здесь: https://datasciencecourse.ru/work/
- Единственная адекватная книга на русском языке «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петер Флах скачать или купить по ссылке
В США, согласно O’Reilly Media, уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше — в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год. В России с каждым годом потребность в таких специалистах будет только повышаться, так как заявлен курс на цифровизацию всей экономики.