Найти в Дзене
Цех

Хочу стать дата-сайентистом. Что нужно делать? Эксперт отвечает на 13 главных вопросов

Оглавление

Data Science — одна из самых перспективных и популярных сфер для смены профессии и дополнительного образования. По данным Coursera Global Skills Index Россия заняла первое место в мире по компетенциям в этой области. Если вы тоже хотите приобщиться к миру данных, но не знаете, с чего начать, “Цех” совместно с экспертом онлайн-школы Skillfactory Анастасией Максимовской составил подробный Data Science-гид. 

Фото: Личный архив
Фото: Личный архив

Что такое Data Science 

Data Science — это наука о том, как работать с большими данными, анализировать их и находить полезные взаимосвязи, которые потом можно использовать для самых разных задач. 

Сегодня Data Science используют практически везде. Самый простой пример — онлайн-маркеты вроде “Беру” или Ozon: магазины советует нам, что купить, анализируя наши предыдущие покупки или просмотры. Так же работают плейлисты на Spotify или “Яндекс. Музыке”. Еще один вариант — поиск по картинке: если девушка увидела где-то классные туфли, она может сфотографировать их и загрузить снимок в поисковик. Компьютерное зрение распознает объект и предложит похожие варианты. 

Недавно я вызвала такси с работы, и мне предложили машину с ожиданием 7 минут. При этом на стоянке возле офиса было много свободных водителей. Позже я выяснила, что в агрегаторе есть специальная программа, которая отслеживает, сколько заказов принял таксист. У моего водителя вызовов было мало, а я могу подождать 7 минут — это видно из истории заказов, поэтому агрегатор нас соединил. Все это было бы невозможно без Data Science-технологий. Кстати, смешные видео, где Обама читает рэп или нейросеть пишет музыку — тоже работа дата-сайентистов. 

Где можно работать

В Data Science, как и в других сферах, есть разные направления и специальности. Кто-то занимается рекомендательными системами для Netflix, кто-то — компьютерным зрением для Google, а кто-то — работой с текстом для онлайн-переводчиков. Автоматизировать процессы можно почти везде, поэтому дата-сайентист может работать в самых разных компаниях. 

Что конкретно нужно уметь 

Есть общий набор навыков, которыми должен обладать каждый дата-сайентист — шесть скиллов и три программы. Уже овладев ими, можно выбрать какое-то направление или специализацию.

Навыки:
1. Работа с данными
2. Визуализация данных
3. Программирование на Python
4. Теория вероятностей и математическая статистика
5. Машинное обучение
6. Глубокое обучение

Программы:
1. Apache Spark
2. Hadoop
3. SQL

©иканам стьюдентс коммьюнити /vkontakte 
©иканам стьюдентс коммьюнити /vkontakte 

Обязательно ли учить Python 

Да, однако бояться не стоит. Python — несложный язык, в библиотеках кода есть много примеров для разных задач. Его очень удобно использовать. К нам часто приходят студенты, которые считают себя гуманитариями, неспособными к программированию, но с Python справляются все, тем более на базовом уровне. 

Будет ли нужен английский 

В России можно работать в Data Science, не зная английский. С переводчиком можно горы покорить. Однако на английском языке выходят ключевые статьи о новых моделях и методах, поэтому для обновления знаний он иногда будет нужен. Что касается программ для работы, их интерфейс не сложнее привычного Microsoft Word — даже на английском проблемы вряд ли возникнут. 

 Сколько можно зарабатывать

Data Science — область высоких зарплатных ожиданий. На самом деле труд  дата-сайентистов действительно хорошо оплачивается. На этапе стажировки можно получать 40-50 тысяч рублей, на позиции джуниора — от 60 до 120 тысяч, мидлы могут зарабатывать до 180 тысяч рублей, а дальше цифры очень отличаются в зависимости от города или компании. 

Где и как можно учиться 

Многие люди хотят самостоятельно войти в Data Science без бэкграунда в математике и программировании. Это возможно, почти все материалы можно самому найти в интернете. Однако без опыта в этой сфере очень тяжело построить программу обучения, которая охватит все важные этапы. Высок риск, что какие-то темы будут упущены, и это отразится на поиске работы. 

Если пойти по классическому пути, стать дата-сайентистом можно, окончив университет. Однако для взрослых людей этот путь не подходит, потому что совмещать учебу и полный рабочий день получается крайне редко. Другой вариант — очные и онлайн-курсы, к выбору которых нужно относиться очень внимательно.

Преимущество курса от Skillfactory — практикоориентированность. Мы стараемся сделать программу максимально прикладной, чтобы через 12 месяцев занятий человек мог сразу выйти на стартовую позицию дата-сайентиста. Сначала мы учим Python, потом математику, машинное обучение, глубокое обучение и инструменты работы с большими данными. 

Во время обучения наши студенты выполняют проекты, которые при устройстве на работу смогут показать как портфолио. К тому же у нас всегда есть поддержка менторов, которые объяснят трудные моменты и посоветуют дополнительные материалы по западающим темам. Конечно, ответ на любой вопрос можно найти в интернете, но иногда гуглить нужно по нескольку часов, и ментор здорово экономит время. 

Сколько стоит обучение 

Цены на университетские программы по работе с данными могут доходить до полумиллиона рублей. Конечно, можно поступить на бюджетное место или осваивать Data Science самостоятельно, с помощью бесплатных курсов на Coursera и других доступных материалов. Но во втором варианте нет человеческого контроля и фидбека преподавателя. Онлайн-курс — отличная альтернатива: справедливая цена и все необходимые для работы знания.

Где еще можно потренироваться

Чтобы получить еще больше практики, можно зайти на Kaggle — это платформа, где проходят соревнования по машинному обучению. Компания ставит дата-сайентистам задачи, и тот, кто быстрее и лучше решит, — получает денежное вознаграждение и, возможно, работу. Плюс, Kaggle очень хорошо отражает потребности рынка и показывает, за что компании готовы платить. Мы в Skillfactory тоже проводим такие соревнования, чтобы студенты привыкали к рабочему ритму. 

Что спросят при устройстве на работу

На этапе резюме попросят показать портфолио: его можно сделать на программистском портале Github — он также подходит для дата-сайентистов. На самом собеседовании будьте готовы к следующим вопросам: 

  • SQL, или как писать запросы к большим данным: например, я хочу выбрать из таблицы только людей старше 1998 года рождения. Как это сделать?
  • Несколько вопросов о машинном и глубоком обучении: какие есть модели и метрики, и как они работают?
  • Бэкграунд: попросят рассказать о прошлых проектах. 

Бонусом могут добавить математическую задачку и вопросы по специфике работы. Мы в SkillFactory создали свой карьерный центр, специалисты которого помогают студентам подготовить резюме, подобрать вакансии (от крупных компаний-партнеров) и подготовиться к собеседованию. А успешным выпускникам мы гарантируем трудоустройство.

Что я буду делать каждый день

В основном работать за компьютером и ходить на командные переговоры. Data Science-задачи выполняются примерно по одному сценарию: компания рассказывает, что ей нужно получить, от запроса бизнеса нужно перейти к реальной постановке задачи на уровне математики и анализа данных. Затем нужно собрать и проанализировать данные, обработать их и построить модель — математический алгоритм, который сможет решить задачу. Следующий этап — обучение модели и оценка качества: нужно проверить, что все стабильно работает на протяжении долгого времени. Только после этого мы внедряем модель и закрываем проект. Над одной задачей можно работать почти год — это довольно долгий процесс.

Кому такая работа подойдет больше всего

К нам приходят люди из самых разных сфер: инженеры, политологи, химики — и для всех находятся интересные задачи, которые как-то переплетаются с их бэкграундом. Нельзя заниматься Data Science в финансах, если у тебя нет знаний в этой сфере: ошибка из-за незнания специфики может очень дорого стоить. Поэтому всем студентам я даю одну рекомендацию — будет здорово, если они найдут работу, которая перекликается с их предыдущим опытом. 

Перспективы профессии 

Считается, что каждая новая технология проходит пять основных стадий: триггер-инновация, пик раздутых ожиданий, естественное падение, новое развитие и плато. Data Science же сразу стала реально работать на бизнес. Эта сфера активно развивается и не собирается сдавать позиции. Порог входа в профессию постоянно повышается, а задач становится все больше. 

Data Science может решить множество проблем, сделать жизнь человечества намного лучше и удобнее. Однако новичкам нужно морально подготовиться, что учить придется довольно много. Зато потом у вас будет отличная профессия — с перспективами роста и постоянного развития. 

Толь­ко по­лез­ные по­сты и сто­рис — в на­шем In­sta­gram

«Цех» — медиа о непрерывном образовании взрослых людей. Мы целиком захвачены идеей постоянного развития личности — профессионального, интеллектуального, эмоционального и даже духовного. Мы исследуем, как, чему и где лучше всего учиться и, главное, зачем. Если вам понравился этот материал, подпишитесь, пожалуйста, на нашу почтовую рассылку.