Весь мир — это данные. А ты в нём — «парочка» бит (±1,05х10^19 байт).
Всем привет! Меня зовут Анна, я работаю в различных Data-направлениях на протяжении 3+ лет, и в этой статье обсудим сферу Data Science: понятие и направления, навыки и инструменты, перспективы Data-профессии и требования к джуну, советы и рекомендации для начинающих.
5 фактов об Анне:
1. Опыт работы — 3+ лет в направлениях Data Engineering, BI Analytics, Oracle Database Administration.
2. Магистр управления («Электронное правительство») с опытом научной деятельности 6 лет.
3. Навыки работы с несколькими РСУБД, хранилищами данных (в т. ч. облачными), инструментами визуализации, Python для ML- и ETL-задач, Data Quality.
4. 40+ научных англо- и русскоязычных публикаций и 11 научных работ
5. Сферы интересов: AI, ML, BigData, FinTech, цифровизация экономики, имитационное моделирование.
Что такое Data Science?
По оценкам экспертов, объем информации в мире увеличивается вдвое каждые десять лет, по другим источникам — каждые четыре года. Согласно прогнозу IDC, к 2025 годуобщий объем цифровых данных, генерируемых
во всем мире, вырастет более чем вчетверо — с 40 Зеттабайт (как это было
в 2020 году) до 175 Зеттабайт (Источник: CloudMTS).
Компании активно решают проблему растущего объёма данных
с помощью внедрения Data-driven подхода. Его суть в том, что люди, опираясь на данные, принимают эффективные стратегические бизнес-решения.
По словам Джеффа Хеллера, вице-президента по технологиям и операциям компании Faction, в 2024 году многие предприятия по всему миру будут внедрять архитектуру «данные в первую очередь» (Data-first), чтобы упростить свои стратегии управления данными.
Data Science (англ. «наука о данных») — это направление, которое включает в себя инструменты, методы и технологии, помогающие обрабатывать данные и использовать их для достижения целей.
Data Science — это не самостоятельная наука, а сочетание нескольких смежных дисциплин: математики и статистики, программирования, бизнес-аналитики и стратегического планирования.
Data Science — это работа с большими данными (англ. Big Data).
Big Data — огромные объёмы неструктурированной информации (банковские транзакции кредитных карт, база данных запросов в Google и др.). Иногда можно встретить иную трактовку данного термина — набор инструментов для работы с огромными массивами данных.
Какие есть профессии в Datа?
Итак, перейдём к конкретным профессиям в Data. На мой взгляд, основными являются следующие:
1. Data Engineer (инженер данных);
2. Data Analyst (аналитик данных);
3. Data Scientist (учёный данных).
Data Engineer – специалист, который обеспечивает сбор данных из различных источников и готовит их для работы Data Analyst и Data Scientist.
Data Analyst — специалист, который ищет инсайты в данных, создаёт визуализации и даёт ответы на запросы от бизнеса, коммуницирует
с бизнесом.
Data Scientist — специалист, который работает с большими массивами данных, ищет в них закономерности, строит прогнозные модели и др.
Для лучшего понимания приведу пример диаграммы этапов построения
ML-модели, разработанной в рамках одного из моих научных исследований:
Стоит отметить, что чем крупнее компания, тем выше вероятность, что там будут работать и Data Engineer, и Data Analyst, и Data Scientist. В стартапах компетенции всех трех специалистов (сбор данных, их анализ и построение моделей) может совмещать один человек.
P.S. Речь об English не велась, так как в данной сфере всем специалистам
по умолчанию необходим минимум В2. Но если компания не работает с иностранными клиентами, то он нужен на уровне чтения профессиональной литературы, так как её на английском очень много.
Как выбрать Data-направление?
Перепробовать всё!
Каждое направление интересно по-своему и имеет свои особенности. Если любишь и хорошо знаешь математику — тебе в Data Science, если любишь «щупать» и «причёсывать» данные, но математику пока не подтянул (или
не хочешь подтягивать), то — в Data Engineering. Data Analyst часто называют отличным «входом» в Data, так как там есть немного обработки и анализа данных (Data Engineering) и немного статистики (Data Science).
Что нужно Junior для получения первого оффера?
1. Горящие глаза с желанием ДО КОНЦА ЖИЗНИ учиться.
2. Уверенное знание теории баз данных, SQL, работа с консолью, алгоритмы и структуры данных.
P.S. Средства визуализации (PowerBI/Tableau) и Python желательно,
но не обязательно.
3. Все остальные скиллы доучиваются обычно в процессе работы
в зависимости от специфики сферы компании или проекта.
4. Навыки работы в команде.
5. Коммуникативные навыки.
!!!В последнее время требования к джунам возросли, поэтому лучше осваивать всё по максимуму, проходить как можно больше собеседований и делать работу над ошибками.
Почему стоит заниматься Data и (ну, конечно же) сколько платят?
1. Востребованность специалистов последние 10 лет (рост объёмов данных, новые инструменты).
2. Интересное направление как для усидчивых и скрупулёзных (Data Engineer, Data Scientist), так и для гиперобщительных (Data Analyst) персонажей.
3. Огромный плюс, на мой взгляд, — это идеальная сфера для проведения научных исследований ❤️
4. Большое сообщество первоклассных профессионалов.
5. Удобство перехода из «чистой» разработки или аналитики в данную сферу.
6. Высокая заработная плата: на старте, в основном, джунам в любом направлении предлагают 400-600$ (при наличии знаний по базовой теории, небольшого pet-проекта и классных soft-скилов). Далее всё зависит только от вас: темпа обучаемости и способности учиться самостоятельно, навыков коммуникации и др.
Всем успехов в увлекательном Data-приключении!
Открыта к замечаниям и предложениям по данной статье, а также
к новым идеям для других статей. С удовольствием пообщаюсь на смежные темы в LinkedIn.
Сделать первый шаг в перспективную и высокооплачиваемую профессию Дата-сайентиста можно на курсе «Основы Data Science».