10,2 тыс подписчиков
🖥 Задача про градиентный бустинг
Градиентный бустинг — один из самых мощных алгоритмов классического машинного обучения. Приведите пример, когда градиентный бустинг в задаче регрессии будет работать хуже линейной регрессии.
Решение
Представим себе, что данные имеют линейную зависимость и получилось так, что тренировочные данные (синие точки) находятся в одной части этой прямой, а тестовые данные (красные точки) — в другой части.
Тогда линейная регрессия проведет через тренировочные данные прямую, которая хорошо аппроксимирует и тестовые данные.
При этом бустинг подстроится исключительно под синие точки, а на границе тренировочной области поведет себя произвольно. Поэтому красные точки (тестовые) будут предсказываться с большой ошибкой.
Это простой пример.
Довольно часто такого не происходит в реальной жизни, потому что обычно мы предполагаем, что новые данные приходят из той же области, что и старые. Но этот пример хорошо показывает, что бустинг не подходит для экстраполяции функций, то есть для прогнозов на новой области определения (которой не было в тренировочных данных).
Пишите свой примиер в комментариях
Около минуты
6 июля 2023
191 читали