Найти в Дзене

6. "Нелинейная регрессия"

Регре́ссия (лат. regressio — обратное движение, отход) в теории вероятностей и математической статистике — односторонняя стохастическая зависимость (случайная, недетерминированная), устанавливающая соответствие между случайными переменными, то есть математическое выражение, отражающее связь между зависимой переменной у и независимыми переменными х при условии, что это выражение будет иметь статистическую значимость. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y. Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для моде
Оглавление

Регре́ссия (лат. regressio — обратное движение, отход) в теории вероятностей и математической статистике — односторонняя стохастическая зависимость (случайная, недетерминированная), устанавливающая соответствие между случайными переменными, то есть математическое выражение, отражающее связь между зависимой переменной у и независимыми переменными х при условии, что это выражение будет иметь статистическую значимость. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели.

Нелинейная регрессия — это вид регрессионного анализа, в котором экспериментальные данные моделируются функцией, являющейся нелинейной комбинацией параметров модели и зависящей от одной и более независимых переменных. Данные аппроксимируются методом последовательных приближений.

Если MSE и коэффициент детерминации (см. п 5) показывают себя "нехорошо", мы имеем дело с нелинейной зависимостью.

Модель не находит сложные зависимости, появляется ошибка смещения.
Модель не находит сложные зависимости, появляется ошибка смещения.

В этом случае, выбирается более сложная модель

-2

Но здесь важно "не переборщить" и выбрать всё же адекватную модель, произошло переобучение, что можно видно по метрикам, и есть вариант поиска наиболее адекватной

-3

Линеаризация

Некоторые задачи нелинейной регрессии могут быть сведены к линейным путём подходящего преобразования формулировки модели.

Сегментация

Независимая переменная может быть разбита на классы или сегменты и может быть осуществлена линейная регрессия посегментно.

Зависимость урожайности горчицы от засолённости почвы
Зависимость урожайности горчицы от засолённости почвы

И мысли вслух о типах признаков

Добавление разных типов признаков может улучшать предсказание, в т.ч. категориальных.

Полиномиальные признаки — это квадратичные или кубические значения существующих признаков. Они создаются путём возведения существующих признаков в степень или их комбинирования.

Это полезно, когда есть нелинейные зависимости. Например, квадрат площади квартиры может лучше предсказывать цену, чем сама площадь.

Также можно комбинировать категориальные признаки. Например, объединение «города» и «типа недвижимости» может учесть различия в ценах на жильё в разных регионах.

Степень полинома определяет сложность модели и её способность описывать нелинейные зависимости. Чем выше степень полинома, тем более сложные зависимости можно моделировать, но при этом возрастает риск переобучения модели.

Для создания полиномиальных признаков можно использовать библиотеки машинного обучения, например Scikit-learn в Python.

"Полином — это синоним многочлена, фундаментального понятия в алгебре и математическом анализе."