Поход в рандомные леса Вот я и доползла в изучении МЛ до дерева решений. Эта структура интуитивно понятна, похожая на классические правила "если .. то". Только вот отсечки для если учится ставить алгоритм, поэтому иногда они выглядят как "Если у существа 33.5 ноги, то ", зато работают и находят максимально точную линию разделения. Но если не знать некоторых нюансов, дерево может превратиться в базу данных и будет давать ответы на ее основе, это называется overfitting. Чтобы не допустить такого, мы не даем модели уйти в глубину сортировки на максимум до тех пор, прока к каждой записи тестового датасета не будет найденно свое условие. Логично, что для этого мы как раз будем контролировать глубину поиска (max_depth) и количество записей в каждой группе в конце нашей сортировки (max_leaf_nodes). Тогда дереву придется подбирать более общие условия, но зато результат на тестовой выборке и на проверочной будут с незначительной погрешностью. Отсечки и листья лучше потренировать в нескольких зн