Машинное обучение — один из самых известных и важных подразделов науки о данных. В 1959 году исследователь компании IBM Артур Самюэл впервые ввёл термин машинное обучение.
На этих занятиях мы научились работать с библиотекой pyspark.ml, которую можно назвать аналогом sklearn, но для работы в Spark. Преимущество этой библиотеки - она позволяет обучать модели распределенно, однако хорошо себя показывает только на больших объемах данных. Обучение и создание моделей примерно такое же как в sklearn: импортируем нужную модель, берем данные и обучаем на них. Также есть инструменты для токенизации, работы с текстом и проверки качества модели. Ну и классификация с кластеризацией такие же как в sklearn...