Найти в Дзене

Базовые навыки для погружения в Data Science (Начало пути)

Статья будет интересна для тех, кто хочет сменить профессию или освоить Data Science с нуля, но не знает с чего начать. Расскажу про ключевые навыки, необходимые для погружения в мир науки о данных, мою стратегию обучения для успешного совмещения работы и учебы. И так что мы имеем? Data Science - это наука, объединившая несколько дисциплин. В этой статье я структурирую свой путь обучения опираясь на Дорожную карту в Data Science с нуля, расскажу про свой уровень знаний и обозначу ключевые точки роста. Математика и статистика Сказать что я математик? По складу ума - возможно, по знаниям - далеко не факт, большую часть знаний придется как минимум вспоминать, а как максимум учить заново. Программирование Python - опыт около года активных попыток писать скрипты для решения текущих/рабочих задач. В основном парсинг данных из интернета и дальнейшая обработка этих данных. Linux - несколько попыток начать пользоваться данной ОС с "наскока", все разы Linux меня жутко выбешивало и я бросал эту з
Оглавление

Статья будет интересна для тех, кто хочет сменить профессию или освоить Data Science с нуля, но не знает с чего начать. Расскажу про ключевые навыки, необходимые для погружения в мир науки о данных, мою стратегию обучения для успешного совмещения работы и учебы.

Базовые навыки для Data Science
Базовые навыки для Data Science

Введение

И так что мы имеем? Data Science - это наука, объединившая несколько дисциплин. В этой статье я структурирую свой путь обучения опираясь на Дорожную карту в Data Science с нуля, расскажу про свой уровень знаний и обозначу ключевые точки роста.

Текущий уровень знаний

Математика и статистика

  • Линейная алгебра: школьный уровень.
  • Математический анализ: базовые знания из Вуза.
  • Теория вероятностей и статистика: поверхностное знакомство.

Сказать что я математик? По складу ума - возможно, по знаниям - далеко не факт, большую часть знаний придется как минимум вспоминать, а как максимум учить заново.

Программирование

Python - опыт около года активных попыток писать скрипты для решения текущих/рабочих задач. В основном парсинг данных из интернета и дальнейшая обработка этих данных.

Linux - несколько попыток начать пользоваться данной ОС с "наскока", все разы Linux меня жутко выбешивало и я бросал эту затею. В данный момент у меня на виртуальной машине установлена Ubuntu 24.04 с целью, развернуть VoIP сервер Asterisk (рабочая задача, которую я сам себе придумал, подробнее в стратегии обучения).

Git/GitHub - пару коротких видео про Git, понимание что это нужно и важно, но не понятно как этим пользоваться и куда "тыкать". GitHub та же история, только тут хотя бы пользовался тем, что на нём выложено.

SQL - знаю, что это язык запросов для баз данных и что он необходим любому специалисту в области IT и даже тем, кто работает в смежных областях. Вопрос лишь в том, насколько глубоки и качественны эти знания. Слышал про SELECT и JOIN, но вряд ли смогу что-то сейчас про них рассказать.

Promt LLM - ИИ модели, особенно Deep Seek R1, были последним триггером, который дал мне тот самый пинок ввязаться в эту авантюру подробнее [[пост знакомство]]. Парадокс в том, что программисты обучали ИИ модели и теперь они могут помочь нам изучать машинное обучение, чтобы в дальнейшем мы сами могли обучать свои ИИ модели. Данный раздел необходим для понимания, как с максимальным качеством использовать возможности ИИ в моем обучении.

Контейнеризация - существуют Docker и Kubernetes, что-то слышал про единую упаковку всех зависимостей в один архив и легкость его развертывания. Из окружения видел как люди используют Docker. Основная цель уметь делать базовые вещи, без углубления в глубину глубин.

Облачные вычисления - пока нет понимания зачем это все и какой выигрыш от облаков. Цель разобраться и понять - что, зачем и почему.

Стратегия обучения

На старте моего увлекательного пути к новой профессии я являюсь устоявшимся инженером в телекоммуникациях (опыт 7 лет). Несмотря на кажущуюся похожесть профессий моя текущая деятельность только на 30% связана с сидением за компьютером и работой с протоколами связи и настройкой оборудования, 70% рабочего времени уходит на организационные вопросы, бюрократию и реальное взаимодействие с инфраструктурой связи.

Чтобы ускорить процесс обучения, я планирую применять полученные знания на практике, когда буду выполнять рабочие задачи. Это поможет мне закрепить и отработать знания.

Главные принципы:

  • Максимальное внедрение получаемых навыков в работе, возможно не полностью, но хотя бы частично.
  • Выделение 1-2 часов по будням вечером и 3-4 часа по выходным для изучения материалов и практики в соответствии с дорожной картой.
  • Изучение параллельно несколько разных направлений одного этапа из дорожной карты, с целью минимизировать выгорание и иметь возможность переключиться на другой материал, пока есть затруднение и материал "усваивается".

Заключение

На ближайшие три года я ставлю для себя цель разобраться в науке о данных и стать специалистом среднего уровня.

P.S. Все материалы по математике и статистике будут иметь тег #Math, а базовые материалы по IT технологиям тег #ITBasics.