Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.
Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности.
В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.
Профессиональные компетенции исследователя данных: что должен знать Data Scientist
Чтобы решать вышеописанные задачи, ученый по данным должен быть компетентным в следующих областях знаний:
информационные технологии – методы и средства интеллектуального анализа данных (Data Mining): алгоритмы и структуры данных, машинное обучение и другие разделы искусственного интеллекта (искусственные нейронные сети, генетические алгоритмы, deep learning), языки программирования (R, Python, Julia, Haskell), среды статистического анализа (R-Studio, MatLab, Jupyter Notebook);
математика (статистика, теория вероятностей, дискретная математика);
знание предметной области – отраслевая или корпоративная специфика.
Отметим, что, в отличие от аналитика данных, Data Scientist концентрируется на технических сторонах исследования информации, уделяя меньшее внимание системному анализу и бизнес-процессам.
Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:
- Сбор большого количества неуправляемых данных и преобразование их в более удобный формат.
- Решение бизнес-задач с использованием данных.
- Работа с различными языками программирования, включая SAS, R и Python.
- Работа со статистикой, включая статистические тесты и распределения.
- Использование аналитических методов, таких как машинное обучение, глубокое обучение и текстовая аналитика.
- Сотрудничество с ИТ и бизнесом в равной мере.
- Поиск порядка и шаблонов данных, а также выявление тенденций, которые могут помочь в достижении конечного бизнес-результата.
А вот термины и технологии, которые надо знать будущему Data Scientist:
- Визуализация данных: представление данных в графическом формате, чтобы их можно было легко проанализировать.
- Машинное обучение: отрасль искусственного интеллекта, основанная на математических алгоритмах и автоматизации.
- Глубокое обучение: область изучения машинного обучения, которая использует данные для моделирования сложных абстракций.
- Распознавание образов: технология, которая распознает шаблоны в данных (часто используется взаимозаменяемо с машинным обучением).
- Подготовка данных: процесс преобразования необработанных данных в другой формат, чтобы их было проще потреблять.
- Текстовая аналитика: процесс анализа неструктурированных данных для получения ключевых бизнес-идей.
Помимо прочего, нужно знать и понимать:
- Статистику и машинное обучение.
- Языки программирования SAS, R или Python.
- Базы данных MySQL и Postgres.
- Технологии визуализации данных и отчетности.
- Hadoop and MapReduce.