Найти тему
Властелин машин

Как создавать модели машинного обучения на Python

В этой статье я расскажу самое важное о типовых этапах запуска любой модели машинного обучения. Каждый из них является неотъемлемой частью data science и крайне важен для получения успешных результатов работы.

В целом условно можно выделить следующие этапы:

  1. Извлечение данных (ранее писал об этом).
  2. Предобработка. Она может быть осуществлена с помощью таких библиотек, как NumPy и Pandas (неоднократно об этом упоминал ранее).
  3. Исследование данных путем визуализации и выборки простых статистик (среднее, дисперсия, корреляция, визуализация взаимосвязей, вид распределения...)
  4. Выбор модели машинного обучения и оценка качества ее работы. Подстройка гиперпараметров модели.
  5. Обучение модели на всех имеющихся данных.

В данной статье подробнее поговорим об обучении и начале работы модели на примере дерева решений (писал ранее). Рассмотрим чуть расширенный использовавшийся в прошлой статье тренировочный набор для классификации животного (собачка, котик) по набору признаков:

-2

Используя библиотеку Seaborn (подробнее здесь), можно визуализировать зависимость длины и ширины для обоих классов:

-3
-4

Глядя на картинку, видно, что данные линейно разделимы, и не составят труда для нашего алгоритма. Ниже представлен скрипт, который считывает данные, преобразует метки классов в числовые значения, разбивает данные на обучающую и тестовую выборку для оценки качества модели и проверяет эффективность дерева решений с разной (1 и 2) глубиной:

-5
-6