Найти в Дзене

Обзор профессии Data Scientist

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.
Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.

Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности.

В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.

Профессиональные компетенции исследователя данных: что должен знать Data Scientist

Чтобы решать вышеописанные задачи, ученый по данным должен быть компетентным в следующих областях знаний:

-2

информационные технологии – методы и средства интеллектуального анализа данных (Data Mining): алгоритмы и структуры данных, машинное обучение и другие разделы искусственного интеллекта (искусственные нейронные сети, генетические алгоритмы, deep learning), языки программирования (R, Python, Julia, Haskell), среды статистического анализа (R-Studio, MatLab, Jupyter Notebook);

математика (статистика, теория вероятностей, дискретная математика);

знание предметной области – отраслевая или корпоративная специфика.

Отметим, что, в отличие от аналитика данных, Data Scientist концентрируется на технических сторонах исследования информации, уделяя меньшее внимание системному анализу и бизнес-процессам.

-3

Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:

  • Сбор большого количества неуправляемых данных и преобразование их в более удобный формат.
  • Решение бизнес-задач с использованием данных.
  • Работа с различными языками программирования, включая SAS, R и Python.
  • Работа со статистикой, включая статистические тесты и распределения.
  • Использование аналитических методов, таких как машинное обучение, глубокое обучение и текстовая аналитика.
  • Сотрудничество с ИТ и бизнесом в равной мере.
  • Поиск порядка и шаблонов данных, а также выявление тенденций, которые могут помочь в достижении конечного бизнес-результата.

А вот термины и технологии, которые надо знать будущему Data Scientist:

  • Визуализация данных: представление данных в графическом формате, чтобы их можно было легко проанализировать.
  • Машинное обучение: отрасль искусственного интеллекта, основанная на математических алгоритмах и автоматизации.
  • Глубокое обучение: область изучения машинного обучения, которая использует данные для моделирования сложных абстракций.
  • Распознавание образов: технология, которая распознает шаблоны в данных (часто используется взаимозаменяемо с машинным обучением).
  • Подготовка данных: процесс преобразования необработанных данных в другой формат, чтобы их было проще потреблять.
  • Текстовая аналитика: процесс анализа неструктурированных данных для получения ключевых бизнес-идей.

Помимо прочего, нужно знать и понимать:

  • Статистику и машинное обучение.
  • Языки программирования SAS, R или Python.
  • Базы данных MySQL и Postgres.
  • Технологии визуализации данных и отчетности.
  • Hadoop and MapReduce.