127 подписчиков

Поход в рандомные леса

7 августа 20227 авг 2022

1 мин

Поход в рандомные леса Вот я и доползла в изучении МЛ до дерева решений. Эта структура интуитивно понятна, похожая на классические правила "если .. то". Только вот отсечки для если учится ставить алгоритм, поэтому иногда они выглядят как "Если у существа 33.5 ноги, то ", зато работают и находят максимально точную линию разделения. Но если не знать некоторых нюансов, дерево может превратиться в базу данных и будет давать ответы на ее основе, это называется overfitting. Чтобы не допустить такого, мы не даем модели уйти в глубину сортировки на максимум до тех пор, прока к каждой записи тестового датасета не будет найденно свое условие. Логично, что для этого мы как раз будем контролировать глубину поиска (max_depth) и количество записей в каждой группе в конце нашей сортировки (max_leaf_nodes). Тогда дереву придется подбирать более общие условия, но зато результат на тестовой выборке и на проверочной будут с незначительной погрешностью. Отсечки и листья лучше потренировать в нескольких зн

Вот я и доползла в изучении МЛ до дерева решений. Эта структура интуитивно понятна, похожая на классические правила "если .. то". Только вот отсечки для если учится ставить алгоритм, поэтому иногда они выглядят как "Если у существа 33.5 ноги, то ", зато работают и находят максимально точную линию разделения.

Но если не знать некоторых нюансов, дерево может превратиться в базу данных и будет давать ответы на ее основе, это называется overfitting. Чтобы не допустить такого, мы не даем модели уйти в глубину сортировки на максимум до тех пор, прока к каждой записи тестового датасета не будет найденно свое условие. Логично, что для этого мы как раз будем контролировать глубину поиска (max_depth) и количество записей в каждой группе в конце нашей сортировки (max_leaf_nodes). Тогда дереву придется подбирать более общие условия, но зато результат на тестовой выборке и на проверочной будут с незначительной погрешностью. Отсечки и листья лучше потренировать в нескольких значениях, чтобы выбрать оптимальные, не всегда приятные и понятные нам значения дают максимально возможную точность.

Кстати, после знакомства с деревом, лес деревьев выглядит не таким страшных. По факту, мы случайно выбираем разные глубины поиска и признаки для каждого дерева (естественно алгоритмом, не ручками) и тренируем эти деревья, потом объединяем в одно и получаем уточненный усредненный результат. Считается, что лес лучше дерева, так как позволяет унифицировать результаты, что-то сродни центральной предельной теории.

P.S. я все ближе к самостоятельному проекту и теперь понимаю, что придется тренировать не одну модель, чтобы выбрать лучшую. Best practices, так сказать.

#ML #путь_дао_саентиста