Найти тему
Data Jedi

Часть I. Data Padawan

Оглавление
“Your focus determines your reality.” – Qui-Gon Jinn
Первые шаги в постижении Силы
Первые шаги в постижении Силы

Начинаем приключение! Каждый Падаван мечтает быстро познать Силу. Но где ее искать, если она невидима?

В самом начале пути все кажется одновременно интересным, захватывающим, даже пугающим неизвестностью. С одной стороны, интересно начинать с чистого листа и быть открытым любым новым знаниям. С другой стороны, не всегда изначально можно определить самый эффективный и легкий путь. Методом проб (надеюсь, без ошибок) я буду строить дорогу к цели.

Для начала давайте посмотрим на общую картину того, что из себя представляет Data Science.

Что такое Data Science

Самая крутая профессия XXI века?
Самая крутая профессия XXI века?

Data Science (далее - DS) является относительно молодой дисциплиной, и ее определение также постепенно эволюционирует. Самым распространенным является следующее:

DS занимается извлечением, подготовкой, анализом, визуализацией и поддержкой обработанных данных. Это межотраслевая дисциплина, которая использует научные методы для изучения и использования данных.

С ростом проникновения в нашу жизнь IT-технологий в геометрической прогрессии увеличивается и количество получаемых данных. Возможность (и необходимость) работы с этими данными послужила условием для возникновения профессии Data Scientist. Этот специалист применяет статистические и математические методы для анализа данных, а с помощью машинного обучения создает модели искусственного интеллекта.

Мне нравится следующая иллюстрация:

Области Data Science
Области Data Science

В целом DS определяет три области:

  1. Computer Science. В общем смысле это можно назвать информатикой, или техническими навыками. Сюда входит знание языка программирования, навыки обработки информации, умение работать с базами данных и прочие IT-скиллы. Эта область отвечает на вопрос “как делать?”.
  2. Математика и статистика. Это фундамент, или основа, для DS. Знание статистики необходимо для анализа данных, а понимание математики (в частности, линейной алгебры) является основой для построения моделей машинного обучения. Будем считать, что эта область отвечает на вопрос “что делать?”.
  3. Отраслевые знания, или Domain Knowledge. Это та область, которая будет различать Data Scientist’ов. Она подразумевает специфику применения технических и математических знаний. То есть, чтобы строить успешные модели для анализа фондовых рынков или построения системы риск-менеджмента для банка, необходимо знание финансов. Для анализа ДНК нужно разбираться в биологии. И так далее. Качество результата зависит от корректного понимания поставленной задачи. Эта область отвечает на вопрос “зачем делать?”.

Но самое интересное происходит на пересечении этих областей:

  • Встреча Статистики/Математики и Отраслевых знаний (Traditional Research) порождают область традиционного анализа . Это то, что мы часто делаем, когда работаем с цифрами. Обычно при помощи привычного Excel.
  • Сочетание Отраслевых знаний и Информатики (Software Development) позволяет вести разработку программ, автоматизацию процессов, создание баз данных, присущих именно этому бизнесу или отрасли.
  • Применение Математики и Информатики (Machine Learning) позволяет создать модель обучения искусственного интеллекта для решения каких-либо задач.

Квинтэссенция этих знаний находится в самом центре пересечения всех областей. Во многих источниках именно это именуется Data Science (хотя лично я понимаю термин более широко). Эта зона помогает решать действительно крутые задачи. Например, создать Skynet систему кредитования на основе анализа заемщика. Для этого нам нужно:

  • знание финансов, чтобы понимать логику и суть анализа заемщика;
  • знание статистики и математики для сбора, подготовки и анализа данных, а также создания эффективной модели для обучения нашего искусственного помощника;
  • технические навыки, чтобы мы смогли написать код и воплотить задуманное.

Заключение

Data Science - это направление, имеющее огромные перспективы в будущем. Профессиональный ландшафт сильно меняется в последние годы, но это только начало тотальной смены парадигмы. Искусственный интеллект уже сейчас является мощным помощником, освобождающим много временных и денежных ресурсов для нашей цивилизации. Знание этих областей скоро превратится в необходимый минимум для успешного профессионала.

В следующем посте я более подробно остановлюсь на наборе навыков в каждой отрасли, которые собираюсь освоить.