Дисклеймер: данная статья написана исключительно с целью рекламы замечательного http://mathprofi.ru. Вот уже более 3х лет я пасусь на этом сайте, подтягивая свою математическую базу, и считаю себя обязанным внести небольшой вклад в популяризацию этого ресурса.
Все темы аккуратно разложены по полочкам, живой стиль изложения и разбор примеров не оставит равнодушным никого! Короче, полный мастхев в закладках вашего браузера.
Про базовые понятия МНК достаточно много годных статей и видеороликов (в том числе и тут: http://mathprofi.ru/nelineynaya_regressiya_primery_resheniy.html#lr, повторять их не имеет смысла. Я ограничусь сравнением двух типов регрессии (гиперболическая и логарифмическая) на конкретном примере из жизни. Я использую МНК довольно часто, но с характерной для себя панковской расхлябанностью: оценку и валидацию получившихся аппроксимаций делаю на глаз. Индексы детерминации и корреляции это хорошо, но мы оставим это другим тематическим ресурсам, поэтому прошу серьезных дядек-математиков не воспринимать эту статью в серьез :).
Описание задачи:
Итак, допустим у нас есть вот такая инженерная табличка зависимости диаметра трубы и линейного термического сопротивления теплоотдаче наружной изоляции. И все бы хорошо, но минимальный диаметр трубы указан 125мм, и нам надо прикинуть значение R для диаметра 40мм. (цель чисто бытовая, понять насколько надо утеплить стояк горячей воды в квартире).
Первое, что надо сделать: это загнать значения независимой переменной и ее функции в эксель, и посмотреть какая типовая функция наиболее точно описывает нашу зависимость.
Ниже я это и сделал, и даже примерно на глаз красной прерывистой линией предположил, куда пойдет график, приближаясь к искомому диаметру 40мм.
На графике явно прослеживается обратная зависимость (чем больше диаметр, тем меньше сопротивление), но неискушенный глаз сходу не определит гипербола перед нами (y=1/x) или обратная логарифмическая зависимость (y=logaX, где основание 0<a<1).
Выбор типа регрессии:
Давайте порассуждаем: по построенному графику видно, что ось X является асимптотой. К этой оси график стремится, но никогда ее не пересекает. Наша зависимость обладает неким пределом («обратным насыщением») – когда дальнейшее увеличение диаметра трубы устремляет наше термическое сопротивление к нулю, но этот ноль никогда не достигается. Такое поведение очень характерно для обратных функций типа 1/x. А вот логарифмическая функция может пересечь ось OX без проблем, что нехарактерно для наблюдаемого нами явления:
А это значит, что гиперболическая аппроксимация больше подходит для нашей задачи. Это и есть наиболее важный момент в МНК - выбрать наиболее подходящую зависимость.
Но в этой статье мы обсчитаем ряд и гиперболой и логарифмом и посмотрим и сравним все три графика.
МНК гиперболическая регрессия.
Наша цель, подобрать коэффициенты A и В функции y=a/х+b. Исходная система уравнений выглядит так:
В теорию не лезем (за этим идите на сайт http://mathprofi.ru), а просто заполняем вспомогательные столбцы в экселе:
и подставляем значения в нашу систему уравнений:
1. a*0.000188+b*0.0413=0.005569
2. a*0.0413+b*14=1.326
Корни уравнения найдем методом Крамера. Для этого создаем три матрицы коэффициентов и находим их определители функцией =МОПРЕД. Коэффицент А= определитель1/основной определитель. Коэффициент В= определитель2/основной определитель
В итоге получаем искомую зависимость у=25,124/x +0.02
МНК логарифмическая регрессия:
Теперь тоже самое провернем, используя логарифмическую регрессию. Наша цель найти функцию y=a*lnx+b. Исходная система уравнений выглядит так:
Аналогично заполняем табличку в экселе:
и подставляем значения в систему уравнений:
1. a*528.63+b*85.37=7.52
2. a*85.37+b*14=1.326
Находим Крамером корни:
И вот мы нашли функцию y=-0.07018*x+0.52269
Сравнение результатов:
А теперь мы сравним на графике все три функции: фактическую, гиперболическую и логарифмическую аппроксимации! Причем искомые диаметры D50 и D40 на самом деле в нашей табличке СНИПА были:) но я их сначала не заметил, и сгоряча экстраполировал нужную цифру.
Выводы:
Видно, что гиперболическая аппроксимация повторяет синий график лучше логарифма, хотя и сильно задрала искомое значение. Но цель этой статьи была в другом: показать важность первичного подбора модели и познакомить читателя с сайтом http://mathprofi.ru:)