Найти тему

Deductor Studio: реализация алгоритма построения дерева решений

В материале [https://dzen.ru/media/id/603a418d1684900aa2499416/derevia-v-teorii-grafov-643429ad5951555cfa818180] приведено краткое определение деревьев как графов без циклов. В текущем материале приведём одно из применений такого объекта как дерево для такой области, как принятие решений.

Цель практической работы:

Изучить алгоритм «Построение дерева решений» и научиться обрабатывать с его помощью данные в Deductor Studio.

Теория

Дерево решений - это графическое изображение процесса принятия решений, в котором отражены альтернативные решения, соответствующие вероятности, и выигрыши для любых комбинаций альтернатив.

Оно является прекрасным инструментом в системах поддержки принятия решений, интеллектуального анализа данных и других областях.

-2
-3

Основные этапы построения дерева решений:

1. Выбрать атрибут для осуществления разбиения в данном узле.

2. Определить критерий остановки обучения.

3. Выбрать метод отсечения ветвей.

4. Оценить точность построенного дерева.

-4
-5

Преимущества деревьев принятия решений:

  • Формируют четкие и понятные правила классификации. Например, «если возраст < 40 и нет имущества для залога, то отказать в кредите». То есть деревья решений хорошо и быстро интерпретируются.
  • Не требуется много параметров модели.
  • Легко визуализируются, то есть могут «интерпретироваться» не только как модель в целом, но и как прогноз для отдельного тестового субъекта (путь в дереве).
  • Быстро обучаются и прогнозируют.
  • Способны генерировать правила в областях, где специалисту трудно формализовать свои знания.
  • Поддерживают как числовые, так и категориальные признаки.

Недостатки деревьев принятия решений:

  • Деревья решений чувствительны к шумам во входных данных. Небольшие изменения обучающей выборки могут привести к глобальным корректировкам модели, что скажется на смене правил классификации и интерпретируемости модели.
  • Разделяющая граница имеет определенные ограничения, из-за чего дерево решений по качеству классификации уступает другим методам.
  • Возможно переобучение дерева решений, из-за чего приходится прибегать к методу «отсечения ветвей», установке минимального числа элементов в листьях дерева или максимальной глубины дерева.
  • Сложный поиск оптимального дерева решений: это приводит к необходимости использования эвристики типа жадного поиска признака с максимальным приростом информации, которые в конечном итоге не дают 100-процентной гарантии нахождения оптимального дерева.
  • Дерево решений делает константный прогноз для объектов, находящихся в признаковом пространстве вне параллелепипеда, который охватывает не все объекты обучающей выборки.

Порядок работы в Deductor Studio

-6
-7
-8
-9
-10
-11
-12
-13
-14
-15
-16
-17
-18
-19
-20

Литература, которая может пригодиться для выполнения практической работы:

  1. Калачев Г.А., Стасюк О.Н. Информационно-аналитические системы: учебное пособие / Г.А. Калачев, О.Н. Стасюк - Омск: Изд-во СибАДИ, 2010. - 101 с. (см. стр. 16-26).
  2. Яковлев В.Б. Методы автоматизации бизнес-процессов в Deductor Studio: учебное пособие. - М.: ОнтоПринт, 2019. - 228 с. (см. тема 8).
  3. Поллак Г.А. Современные технологии анализа информации: учебное пособие к практическим работам / Г.А. Поллак – Челябинск: Издательский центр ЮУрГУ, 2013. – 99 с. (см. п. 8.2.).

В качестве Упражнения возьмите другую обучающую выборку и постройте соответствующее этой выборке дерево принятия решений, опубликуйте его в виде комментария под этим материалом.