“Your focus determines your reality.” – Qui-Gon Jinn
Начинаем приключение! Каждый Падаван мечтает быстро познать Силу. Но где ее искать, если она невидима?
В самом начале пути все кажется одновременно интересным, захватывающим, даже пугающим неизвестностью. С одной стороны, интересно начинать с чистого листа и быть открытым любым новым знаниям. С другой стороны, не всегда изначально можно определить самый эффективный и легкий путь. Методом проб (надеюсь, без ошибок) я буду строить дорогу к цели.
Для начала давайте посмотрим на общую картину того, что из себя представляет Data Science.
Что такое Data Science
Data Science (далее - DS) является относительно молодой дисциплиной, и ее определение также постепенно эволюционирует. Самым распространенным является следующее:
DS занимается извлечением, подготовкой, анализом, визуализацией и поддержкой обработанных данных. Это межотраслевая дисциплина, которая использует научные методы для изучения и использования данных.
С ростом проникновения в нашу жизнь IT-технологий в геометрической прогрессии увеличивается и количество получаемых данных. Возможность (и необходимость) работы с этими данными послужила условием для возникновения профессии Data Scientist. Этот специалист применяет статистические и математические методы для анализа данных, а с помощью машинного обучения создает модели искусственного интеллекта.
Мне нравится следующая иллюстрация:
В целом DS определяет три области:
- Computer Science. В общем смысле это можно назвать информатикой, или техническими навыками. Сюда входит знание языка программирования, навыки обработки информации, умение работать с базами данных и прочие IT-скиллы. Эта область отвечает на вопрос “как делать?”.
- Математика и статистика. Это фундамент, или основа, для DS. Знание статистики необходимо для анализа данных, а понимание математики (в частности, линейной алгебры) является основой для построения моделей машинного обучения. Будем считать, что эта область отвечает на вопрос “что делать?”.
- Отраслевые знания, или Domain Knowledge. Это та область, которая будет различать Data Scientist’ов. Она подразумевает специфику применения технических и математических знаний. То есть, чтобы строить успешные модели для анализа фондовых рынков или построения системы риск-менеджмента для банка, необходимо знание финансов. Для анализа ДНК нужно разбираться в биологии. И так далее. Качество результата зависит от корректного понимания поставленной задачи. Эта область отвечает на вопрос “зачем делать?”.
Но самое интересное происходит на пересечении этих областей:
- Встреча Статистики/Математики и Отраслевых знаний (Traditional Research) порождают область традиционного анализа . Это то, что мы часто делаем, когда работаем с цифрами. Обычно при помощи привычного Excel.
- Сочетание Отраслевых знаний и Информатики (Software Development) позволяет вести разработку программ, автоматизацию процессов, создание баз данных, присущих именно этому бизнесу или отрасли.
- Применение Математики и Информатики (Machine Learning) позволяет создать модель обучения искусственного интеллекта для решения каких-либо задач.
Квинтэссенция этих знаний находится в самом центре пересечения всех областей. Во многих источниках именно это именуется Data Science (хотя лично я понимаю термин более широко). Эта зона помогает решать действительно крутые задачи. Например, создать Skynet систему кредитования на основе анализа заемщика. Для этого нам нужно:
- знание финансов, чтобы понимать логику и суть анализа заемщика;
- знание статистики и математики для сбора, подготовки и анализа данных, а также создания эффективной модели для обучения нашего искусственного помощника;
- технические навыки, чтобы мы смогли написать код и воплотить задуманное.
Заключение
Data Science - это направление, имеющее огромные перспективы в будущем. Профессиональный ландшафт сильно меняется в последние годы, но это только начало тотальной смены парадигмы. Искусственный интеллект уже сейчас является мощным помощником, освобождающим много временных и денежных ресурсов для нашей цивилизации. Знание этих областей скоро превратится в необходимый минимум для успешного профессионала.
В следующем посте я более подробно остановлюсь на наборе навыков в каждой отрасли, которые собираюсь освоить.