В этой статье я расскажу самое важное о типовых этапах запуска любой модели машинного обучения. Каждый из них является неотъемлемой частью data science и крайне важен для получения успешных результатов работы.
В целом условно можно выделить следующие этапы:
- Предобработка. Она может быть осуществлена с помощью таких библиотек, как NumPy и Pandas (неоднократно об этом упоминал ранее).
- Исследование данных путем визуализации и выборки простых статистик (среднее, дисперсия, корреляция, визуализация взаимосвязей, вид распределения...)
- Выбор модели машинного обучения и оценка качества ее работы. Подстройка гиперпараметров модели.
- Обучение модели на всех имеющихся данных.
В данной статье подробнее поговорим об обучении и начале работы модели на примере дерева решений (писал ранее). Рассмотрим чуть расширенный использовавшийся в прошлой статье тренировочный набор для классификации животного (собачка, котик) по набору признаков:
Используя библиотеку Seaborn (подробнее здесь), можно визуализировать зависимость длины и ширины для обоих классов:
Глядя на картинку, видно, что данные линейно разделимы, и не составят труда для нашего алгоритма. Ниже представлен скрипт, который считывает данные, преобразует метки классов в числовые значения, разбивает данные на обучающую и тестовую выборку для оценки качества модели и проверяет эффективность дерева решений с разной (1 и 2) глубиной: