Линейная регрессия - это алгоритм, используемый для прогнозирования или визуализации отношений между двумя различными признаками / переменными . В задачах линейной регрессии рассматриваются два вида переменных: зависимая переменная и независимая переменная .
Независимая переменная - это переменная, которая стоит сама по себе, и не подвержена влиянию другой переменной. При настройке независимой переменной уровни зависимой переменной будут колебаться.
Зависимая переменная - это переменная, которая изучается, и это то, что регрессионная модель решает или пытается предсказать. В задачах линейной регрессии каждое наблюдение / экземпляр состоит как из значения зависимой переменной, так и значения независимой переменной.
Это было быстрое объяснение линейной регрессии, но давайте удостоверимся, что мы идем к лучшему пониманию линейной регрессии, рассмотрев ее пример и изучив формулу, которую она использует.
Понимание линейной регрессии
Предположим, что у нас есть набор данных, охватывающий размеры жестких дисков SSD и стоимость этих жестких дисков.
Давайте предположим, что набор данных, который мы имеем, состоит из двух разных функций: объема памяти и стоимости. Чем больше памяти мы покупаем для компьютера, тем больше увеличивается стоимость покупки. Если мы построим отдельные точки данных на точечной диаграмме, мы можем получить график, который выглядит примерно так:
Точное соотношение памяти и стоимости может различаться у разных производителей и моделей жестких дисков, но в целом тенденция данных начинается с левого нижнего края (где жесткие диски дешевле и имеют меньшую емкость) и перемещаются к вверху справа (где диски дороже и имеют большую емкость).
Если бы у нас был объем памяти по оси X и стоимость по оси Y, линия, фиксирующая отношения между переменными X и Y, начиналась бы в нижнем левом углу и проходила в верхнем правом углу.
Функция регрессионной модели состоит в определении линейной функции между переменными X и Y, которая наилучшим образом описывает взаимосвязь между этими двумя переменными.
В линейной регрессии предполагается, что Y можно рассчитать по некоторой комбинации входных переменных. Взаимосвязь между входными переменными (X) и целевыми переменными (Y) можно изобразить, проведя линию через точки на графике.
Линия представляет функцию, которая лучше всего описывает отношения между X и Y (например, каждый раз, когда X увеличивается на 3, Y увеличивается на 2).
Цель состоит в том, чтобы найти оптимальную «линию регрессии» или линию / функцию, которая наилучшим образом соответствует данным.
Линии обычно представлены уравнением: Y = m * X + b.
где X относится к зависимой переменной, а Y является независимой переменной. Между тем, m - это наклон линии, определяемый как «подъем» над «бегом».
Специалисты по машинному обучению представляют знаменитое уравнение наклона немного по-другому, используя вместо этого следующее уравнение:
у (х) = w0 + w1 * x
В приведенном выше уравнении y - целевая переменная, а «w» - параметры модели, а ввод «x». Таким образом, уравнение читается как: «Функция, которая дает Y, в зависимости от X, равна параметрам модели, умноженным на особенности (фичи)». Параметры модели корректируются во время обучения, чтобы получить наиболее подходящую линию регрессии.
Множественная регрессия
Описанный выше процесс применяется к простой линейной регрессии или регрессии для наборов данных, где имеется только один признак / независимая переменная. Однако регрессия также может быть выполнена с несколькими функциями. В случае « множественной линейной регрессии » уравнение расширяется на количество переменных, найденных в наборе данных. Другими словами, хотя уравнение для регулярной линейной регрессии имеет вид y (x) = w0 + w1 * x, уравнение для множественной линейной регрессии будет иметь вид y (x) = w0 + w1x1 плюс веса и входные данные для различных признаков. Если мы представим общее количество весов и функций как w (n) x (n), то мы могли бы представить формулу следующим образом:
y (x) = w0 + w1x1 + w2x2 +… + w (n) x (n)
После установления формулы для линейной регрессии модель машинного обучения будет использовать различные значения для весов, рисуя различные линии соответствия.
Помните, что цель состоит в том, чтобы найти линию, которая наилучшим образом соответствует данным, чтобы определить, какая из возможных комбинаций весов (и, следовательно, какая возможная линия) лучше всего подходит для данных, и объяснить взаимосвязь между переменными.
Функция стоимости используется для измерения того, насколько близки предполагаемые значения Y к фактическим значениям Y при заданном значении веса. Функция стоимости для линейной регрессии представляет собой среднеквадратичную ошибку, которая просто принимает среднюю (квадратичную) ошибку между прогнозируемым значением и истинным значением для всех различных точек данных в наборе данных.
Функция стоимости используется для расчета стоимости, которая фиксирует разницу между прогнозируемым целевым значением и истинным целевым значением.
Если линия соответствия находится далеко от точек данных, стоимость будет выше, а стоимость будет уменьшаться по мере приближения линии к получению истинных связей между переменными. Веса модели затем корректируются до тех пор, пока не будет найдена конфигурация весов, которая дает наименьшее количество ошибок.
Если стало чуть понятней про линейную регрессию - ставь лайк.