@just_data_science October 29, 2017
Прежде чем ознакомиться с более традиционными методами машинного обучения, появившимися до повального увлечения нейронками, нужно немного уйти в математику. Ненадолго, только чтобы уточнить, что все методы обучения решают два типа задач: классификации и регрессии. Какие-то методы машинного обучения способны работать с обоими типами задач, какие-то - только с одним.
Регрессия вызывает агрессию?
Вызывает, если у вас на экзамене билет про Регрессионный анализ, и вы пытаетесь вспомнить все эти многостраничные математические формулы. Но нам достаточно более простых объяснений.
Регресс - как прогресс, но наоборот. Лезем на википедию за прогрессом, там хорошее определение:
Прогре́сс (лат. progressus — движение вперёд, успех) — направление развития от низшего к высшему, поступательное движение вперед, к лучшему. Противоположность — регресс.
Таким образом, регрессия - это когда что то делают от высшего (сложного), к низшему (простому). Регрессионный анализ - это когда вычисляют зависимость одной величины (высшего, сложного) от множества других (низших, простых).
А попонятнее можно?
Например, мы хотим вычислить, как зависит продолжительность жизни человека от его образа жизни. В таком случае, нас интересует зависимость величины "продолжительность жизни" от величин "количество выпиваемого и выкуриваемого", "частота занятий спортом", "количество подписанных каналов в телеграме", "количество ночных прогулок по району" и многих других. Проведя регрессионный анализ, мы получаем некую "волшебную" формулу. Подставив в нее ваши данные, вы получите количество лет, которое в среднем проживают люди с вашими привычками. (И если у вас после этого возник вопрос "а что так мало?!", то просто срочно бросайте курить, записывайтесь в ближайший спортцентр и не слоняйтесь по ночам, но наш канал не об этом).
Классификация - раскладываем по полочкам
Классификация - это такая задача, в которой конечное количество вариантов ответа на вопрос.
В этом принципиальное отличие от задач регрессии, где ответ - какое-то там число (цена, вероятность и т.д.), могущее принимать бесконечное число значений. Предполагаемая вычисленная продолжительность жизни (из примера выше) может быть и 75 лет, и 75.5, и 75.55. Это все разные числа, и возможное количество вариантов бесконечно.
При задачах классификации все возможные варианты ответов заданы заранее. Доживет ли до 100 лет человек, выкуривающий пачку в день? Ответ должен быть либо "да", либо "нет" - поэтому это задача классификации. Даже если нужно в качестве ответа выдать вероятности ответов "да" или "нет", то это все равно остается задача классификации, а не регрессии.
Кстати, когда ответов ровно два - это называется бинарная классификация.
В задачах классификации результатом может быть сразу несколько вариантов возможных значений ответа. Например, немножко натянутый, но очень понятный пример: нам надо вычислить к какой категории относится автомобиль Порш Кайен Турбо? Есть переменные "мощность двигателя", "разгон до 100 км/ч", "размеры", "дорожный просвет". И есть варианты ответов: "спортивный", "джип", "седан". Ответа будет сразу два - "спортивный" и "джип", и это нормально.
Закрепляем материальчик
Любая задача, когда мы хотим получить некоторую цифровую величину на основе множества входящих переменных - решается регрессионным анализом. Если ответ выбираем из фиксированного возможного списка значений - это классификация.
- оценить максимальную сумму кредита, которую можно дать человеку с таким-то доходом, опытом работы, составом семьи, наличием имущества и т.д. - регрессия;
- дать человеку кредитный рейтинг "надежный", "средний", "ненадежный" на основе данных о нем - классификация;
- вычислить курс рубля к доллару в зависимости от цены на нефть, объема торгов по облигациям федерального займа, ставки рефинансирования Центрбанка, фазы луны, настроения министра финансов и т.д. - регрессия;
- определить к каким языкам может относиться текст - классификация;
- предположить формулу зависимости между силой землетрясений и проводимыми поблизости горными работами - регрессия;
- предсказать выживет или нет пассажир Титаника в зависимости от его возраста, класса билета, пола, количества совместно едущих попутчиков и т.д. - бинарная классификация;
- составить функцию зависимости урожайности картошки от осадков, удобрений, частоты прополки, количества колорадских жуков с саранчой - регрессия.