Найти тему
Data Science и всё такое

Регрессия и классификация

Оглавление

@just_data_science October 29, 2017

Дали кредит? Классификатор банка счёл вас надёжным, а регрессионная функция задала индивидуальный лимит.
Дали кредит? Классификатор банка счёл вас надёжным, а регрессионная функция задала индивидуальный лимит.

Прежде чем ознакомиться с более традиционными методами машинного обучения, появившимися до повального увлечения нейронками, нужно немного уйти в математику. Ненадолго, только чтобы уточнить, что все методы обучения решают два типа задач: классификации и регрессии. Какие-то методы машинного обучения способны работать с обоими типами задач, какие-то - только с одним.

Регрессия вызывает агрессию?

Вызывает, если у вас на экзамене билет про Регрессионный анализ, и вы пытаетесь вспомнить все эти многостраничные математические формулы. Но нам достаточно более простых объяснений.

Регресс - как прогресс, но наоборот. Лезем на википедию за прогрессом, там хорошее определение:

Прогре́сс (лат. progressus — движение вперёд, успех) — направление развития от низшего к высшему, поступательное движение вперед, к лучшему. Противоположность — регресс.

Таким образом, регрессия - это когда что то делают от высшего (сложного), к низшему (простому). Регрессионный анализ - это когда вычисляют зависимость одной величины (высшего, сложного) от множества других (низших, простых).

А попонятнее можно?

Например, мы хотим вычислить, как зависит продолжительность жизни человека от его образа жизни. В таком случае, нас интересует зависимость величины "продолжительность жизни" от величин "количество выпиваемого и выкуриваемого", "частота занятий спортом", "количество подписанных каналов в телеграме", "количество ночных прогулок по району" и многих других. Проведя регрессионный анализ, мы получаем некую "волшебную" формулу. Подставив в нее ваши данные, вы получите количество лет, которое в среднем проживают люди с вашими привычками. (И если у вас после этого возник вопрос "а что так мало?!", то просто срочно бросайте курить, записывайтесь в ближайший спортцентр и не слоняйтесь по ночам, но наш канал не об этом).

Классификация - раскладываем по полочкам

Классификация - это такая задача, в которой конечное количество вариантов ответа на вопрос.

В этом принципиальное отличие от задач регрессии, где ответ - какое-то там число (цена, вероятность и т.д.), могущее принимать бесконечное число значений. Предполагаемая вычисленная продолжительность жизни (из примера выше) может быть и 75 лет, и 75.5, и 75.55. Это все разные числа, и возможное количество вариантов бесконечно.

При задачах классификации все возможные варианты ответов заданы заранее. Доживет ли до 100 лет человек, выкуривающий пачку в день? Ответ должен быть либо "да", либо "нет" - поэтому это задача классификации. Даже если нужно в качестве ответа выдать вероятности ответов "да" или "нет", то это все равно остается задача классификации, а не регрессии.

Кстати, когда ответов ровно два - это называется бинарная классификация.

В задачах классификации результатом может быть сразу несколько вариантов возможных значений ответа. Например, немножко натянутый, но очень понятный пример: нам надо вычислить к какой категории относится автомобиль Порш Кайен Турбо? Есть переменные "мощность двигателя", "разгон до 100 км/ч", "размеры", "дорожный просвет". И есть варианты ответов: "спортивный", "джип", "седан". Ответа будет сразу два - "спортивный" и "джип", и это нормально.

Закрепляем материальчик

Любая задача, когда мы хотим получить некоторую цифровую величину на основе множества входящих переменных - решается регрессионным анализом. Если ответ выбираем из фиксированного возможного списка значений - это классификация.

  • оценить максимальную сумму кредита, которую можно дать человеку с таким-то доходом, опытом работы, составом семьи, наличием имущества и т.д. - регрессия;
  • дать человеку кредитный рейтинг "надежный", "средний", "ненадежный" на основе данных о нем - классификация;
  • вычислить курс рубля к доллару в зависимости от цены на нефть, объема торгов по облигациям федерального займа, ставки рефинансирования Центрбанка, фазы луны, настроения министра финансов и т.д. - регрессия;
  • определить к каким языкам может относиться текст - классификация;
  • предположить формулу зависимости между силой землетрясений и проводимыми поблизости горными работами - регрессия;
  • предсказать выживет или нет пассажир Титаника в зависимости от его возраста, класса билета, пола, количества совместно едущих попутчиков и т.д. - бинарная классификация;
  • составить функцию зависимости урожайности картошки от осадков, удобрений, частоты прополки, количества колорадских жуков с саранчой - регрессия.