Наука о данных – это обширная область. Если взглянуть свысока, то дисциплин внутри Data Science немало: статистика, линейная алгебра, программирование, английский язык, теория вероятностей. Что же такое Наука о данных простыми словами? Это процесс постановки вопросов, и только потом использование того или иного инструмента. Процесс в общих чертах выглядит так:
- Ставим задачу
- Получаем данные
- Подготавливаем и исследуем их
- Создаем модель Машинного обучения
- Преподносим открытия-инсайты
Компоненты обучения
Компонент первый. Программирование. Парочка Python и R заняла свое прочное положение в Data Science, причем R популярен в академических кругах, а Python – в бизнесе. Моя рекомендация – выбрать один язык (лучше Python) и осваивать его с помощью курсов, хотя бы на 200 часов.
Если вы ищете ресурсы, которые помогут справиться с обучением, вот список. Каждый непонятный термин прямо так и гуглится, с помощью специального запроса: 'site: machinelearningmastery.com knn’.
Компонент второй. Изучите анализ, манипулирование данными и их визуализацию с помощью NumPy, Pandas и Scikit-learn. Это одни из самых популярных библиотек, и неспроста: они обеспечивают ясные и последовательные интерфейсы для множества различных моделей.
[Пример синтаксиса]
Библиотеки предлагают множество параметров настройки, и также выбирают разумные значения по умолчанию. Документация исключительная, и на stackoverflow.com предостаточно ответов, чтобы реализовать самый тонкий нюанс.
Как только вы почувствуете свободу с этими составляющими, то потихоньку сможете перейти к более широкому инструментарию: теории вероятностей, вычислительной статистике, глубинному обучению. Вот прекрасный способ освоить эти забористые дисциплины: когда поставленную задачу очень хочется решить, освоение высокоуровневой концепции пройдет легче, обещаю.
Компонент третий. На всем этом пути важно помнить про психогигиену, это наш нитроускоритель. Талантливый психолог Анастасия Калашникова утверждает, что айтишники подвержены определенным профессиональным перекосам самовосприятия: «синдрому самозванца», «синдрому отличницы» и так далее. Это совет не психолога, но программиста, нашедшего свой отдушину в психологии – прочитайте одну-две работы об устройстве вашей психики, вроде книг Карен Хорни и Ирвина Ялома, и справляться с волнением перед выступлением и прочими неприятностями станет основательно легче.
Компонент четвертый. Культура. Однако на пути дата-сайентистки есть дополнительные малоизученные препятствия. Статистика демонстрирует интересные цифры для женщин-дата-сайентисток: только 22% из них получают работу в сфере и удерживаются в ней:
На мой взгляд, не образование играет решающую роль в становлении женщины-профессионала, а среда, в которую она попадает. Статистику числа собеседований оглашать не любит никто, однако прежде чем случится трудоустройство, может пройти десять и более собеседований.
Просто помните: вам не нужно все осваивать, чтобы начать карьеру в области науки о данных, просто нужно начать!
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy .