Найти в Дзене
Машинное обучение

🔥 9 бесплатных курсов Гарварда для изучения науки о данных в 2022 году

Оглавление

В прошлом месяце я написал статью о создании дорожной карты обучения науке о данных с помощью бесплатных курсов, предлагаемых Массачусетским технологическим институтом.

Тем не менее, основное внимание в большинстве курсов, которые я перечислил, было сугубо теоретическим, и большое внимание уделялось изучению математики и статистики, лежащих в основе алгоритмов машинного обучения.

В то время как дорожная карта Массачусетского технологического института поможет вам понять принципы прогнозного моделирования, но в них не хватает, практики на реальных проектах по науке о данных.

Потратив некоторое время на поиски в Интернете, я нашел пару бесплатных курсов Гарварда, которые охватывали весь рабочий процесс науки о данных — от программирования до анализа данных, статистики и машинного обучения.

После того, как вы завершите все курсы этого пути обучения, вам также будет предоставлен завершающий проект, который позволит вам применить все, что вы узнали, на практике.

В этой статье я перечислю 9 бесплатных курсов Гарварда, которые вы можете пройти, чтобы изучить науку о данных с нуля. Вы можете пропустить любой из этих курсов, если у вас уже есть знания по этому предмету.

Шаг 1: Программирование

Первый шаг, который вы должны сделать при изучении науки о данных, — научиться программировать. Вы можете сделать это с помощью выбранного вами языка программирования — в идеале Python или R.

Если вы хотите изучить R, Гарвард предлагает вводный курс по R, созданный специально для изучающих науку о данных, который называется Data Science: R Basics.

Этот куос познакомит вас с такими понятиями R, как переменные, типы данных, векторная арифметика и индексирование. Вы также научитесь обрабатывать данные с помощью таких библиотек, как dplyr, и создавать графики для визуализации данных.

Если вы предпочитаете Python, вы можете пройти курс «Введение в программирование на Python» от CS50, бесплатно предлагаемый Гарвардом. В этом курсе вы изучите такие понятия, как функции, аргументы, переменные, типы данных, условные операторы, циклы, объекты, методы и многое другое.

Обе вышеперечисленные программы предназначены для самостоятельного изучения. Однако курс Python более подробен, чем программа R, и требует больше времени для его прохождения. Кроме того, остальные курсы в этой дорожной карте преподаются на R, поэтому, возможно, стоит изучить R.

Шаг 2: Визуализация данных

Визуализация — один из самых мощных методов, с помощью которого вы можете транслировать свои выводы в виде данных другому человеку.

С помощью гарвардской программы визуализации данных вы научитесь создавать визуализации с использованием библиотеки ggplot2 в R, а также принципы передачи информации, основанной на данных.

Шаг 3: Вероятность

https://www.edx.org/course/data-science-probability

В этом курсе вы изучите основные концепции вероятностей, которые имеют основополагающее значение для проведения статистических тестов на . Преподаваемые темы включают случайные величины, независимость, моделирование методом Монте-Карло, ожидаемые значения, стандартные ошибки и центральную предельную теорему.

Приведенные выше концепции будут представлены с помощью тематического исследования, что означает, что вы сможете применить все, что вы узнали, к реальному набору данных реального мира.

Шаг 4: Статистика

Изучив вероятность, вы можете пройти этот курс, чтобы изучить основы статистического вывода и моделирования.

Эта программа научит вас определять оценки населения и допустимую погрешность в статистических оценках, познакомит вас с байесовской статистикой и научит вас основам прогнозного моделирования.

Шаг 5. Инструменты повышения производительности (необязательно)

Я включил этот курс по управлению проектами как необязательный, поскольку он не имеет прямого отношения к изучению науки о данных. Скорее, вас научат использовать Unix/Linux для управления файлами, Github, контроля версий и создания отчетов в R.

Возможность сделать вышеперечисленное сэкономит вам много времени и поможет лучше управлять комплексными проектами по науке о данных.

-2

Data Science: Productivity Tools

edx.org

Шаг 6: Предварительная обработка данных

Следующий курс в этом списке называется «Обработка данных» и научит вас готовить данные и преобразовывать их в формат для моделей машинного обучения.

Вы научитесь импортировать данные в R, упорядочивать данные, обрабатывать строковые данные, анализировать HTML, работать с объектами даты и времени и анализировать текст.

Как специалисту по данным, вам часто приходится извлекать данные, которые находятся в открытом доступе в Интернете в виде документа PDF, веб-страницы HTML или твита. Вам не всегда будут представлены чистые, отформатированные данные в файле CSV или листе Excel.

К концу этого курса вы научитесь анализировать и очищать данные, чтобы извлекать из них важные фичи.

Шаг 7: Линейная регрессия

Линейная регрессия — это метод машинного обучения, который используется для моделирования линейной зависимости между двумя или более переменными. Его также можно использовать для выявления и корректировки влияния смешанных переменных.

Этот курс научит вас теории, лежащей в основе моделей линейной регрессии, тому, как исследовать взаимосвязь между двумя переменными и как можно обнаружить или удалить ненужные признаки перед построением алгоритма машинного обучения.

Data Science: Linear Regression

Шаг 8: Машинное обучение

Наконец-то курс, которого вы, наверное, ждали! Гарвардская программа машинного обучения научит вас основам машинного обучения, методам предотвращения переобучения, подходам к моделированию с учителем и без учителя, а также системам рекомендаций.

Data Science: Machine Learning

Шаг 9: Проект Capstone

После прохождения всех вышеперечисленных курсов вы можете принять участие в завершающем проекте Гарварда по науке о данных, где будут оценены ваши навыки визуализации данных, вероятности, статистики, обработки данных, организации данных, регрессии и машинного обучения.

С этим финальным проектом вы получите возможность собрать воедино все знания, полученные на вышеуказанных курсах, и получить возможность выполнить практический проект по науке о данных с нуля.

Data Science: Capstone

Примечание. Все вышеперечисленные курсы доступны на платформе онлайн-обучения edX и могут быть прослушаны бесплатно. Однако, если вы хотите получить сертификат о прохождении курса, вам придется заплатить за него.

Machinelearning
Машинное обучение RU

#python #programming #technology #deeplearning #coding #bigdata

#machinelearning #artificialintelligence #ai #datascience