609 подписчиков

Как создавать модели машинного обучения на Python

3 декабря 20203 дек 2020

1 мин

В этой статье я расскажу самое важное о типовых этапах запуска любой модели машинного обучения. Каждый из них является неотъемлемой частью data science и крайне важен для получения успешных результатов работы.

В целом условно можно выделить следующие этапы:

Извлечение данных (ранее писал об этом).
Предобработка. Она может быть осуществлена с помощью таких библиотек, как NumPy и Pandas (неоднократно об этом упоминал ранее).
Исследование данных путем визуализации и выборки простых статистик (среднее, дисперсия, корреляция, визуализация взаимосвязей, вид распределения...)
Выбор модели машинного обучения и оценка качества ее работы. Подстройка гиперпараметров модели.
Обучение модели на всех имеющихся данных.

В данной статье подробнее поговорим об обучении и начале работы модели на примере дерева решений (писал ранее). Рассмотрим чуть расширенный использовавшийся в прошлой статье тренировочный набор для классификации животного (собачка, котик) по набору признаков:

Используя библиотеку Seaborn (подробнее здесь), можно визуализировать зависимость длины и ширины для обоих классов:

Глядя на картинку, видно, что данные линейно разделимы, и не составят труда для нашего алгоритма. Ниже представлен скрипт, который считывает данные, преобразует метки классов в числовые значения, разбивает данные на обучающую и тестовую выборку для оценки качества модели и проверяет эффективность дерева решений с разной (1 и 2) глубиной: