тест 10
Сущность корреляционно-регрессионного анализа и его задачи.
В одних случаях зависимость между признаками оказывается очень тесной (например, часовая выработка работника и его заработная плата), а в других случаях такая связь не выражена вовсе или крайне слаба (например, пол студентов и их успеваемость). Чем теснее связь между этими признаками, тем точнее принимаемые решения.
Различают два типа зависимостей между явлениями и их признаками:
- функциональная (детерминированная, причинная) зависимость. Задается в виде формулы, которая каждому значению одной переменной ставит в соответствие строго определенное значение другой переменной (воздействием случайных факторов при этом пренебрегают). Иными словами, функциональная зависимость – это связь, при которой каждому значению независимой переменной х соответствует точно определенное значение зависимой переменной у. В экономике функциональные связи между переменными являются исключениями из общего правила;
- статистическая (стохастическая, недетерминированная) зависимость – это связь переменных, на которую накладывается воздействие случайных факторов, т.е. это связь, при которой каждому значению независимой переменной х соответствует множество значений зависимой переменной у, причем заранее неизвестно, какое именно значение примет у.
Частным случаем статистической зависимости является корреляционная зависимость.
Корреляционная зависимость – это связь, при которой каждому значению независимой переменной х соответствует определенное математическое ожидание (среднее значение) зависимой переменной у.
Корреляционная зависимость является «неполной» зависимостью, которая проявляется не в каждом отдельном случае, а только в средних величинах при достаточно большом числе случаев. Например, известно, что повышение квалификации работника ведет к росту производительности труда. Это утверждение часто подтверждается на практике, но не означает, что у двух и более работников одного разряда / уровня, занятых аналогичным процессом, будет одинаковая производительность труда.
Корреляционная зависимость исследуется с помощью методы корреляционного и регрессионного анализа.
Корреляционно-регрессионный анализ позволяет установить тесноту, направление связи и форму этой связи между переменными, т.е. ее аналитическое выражение.
Основная задача корреляционного анализа состоит в количественном определении тесноты связи между двумя признаками при парной связи и между результативными и несколькими факторными признаками при многофакторной связи и статистической оценке надежности установленной связи.
2. Определение регрессии и ее виды. Регрессионный анализ является основным математико-статистическим инструментом в эконометрике. Регрессией принято называть зависимость среднего значения какой-либо величины (y) от некоторой другой величины или от нескольких величин (xi).
В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.
Простая (парная) регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х. В неявном виде парная регрессия – это модель вида:
Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных х1, х2, … хn. В неявном виде парная регрессия – это модель вида:
Примером такой модели может служить зависимость заработной платы работника от его возраста, образования, квалификации, стажа, отрасли и т.д.
Относительно формы зависимости различают:
- линейную регрессию;
- нелинейную регрессию, предполагающую существование нелинейных соотношений между факторами, выражающихся соответствующей нелинейной функцией. Зачастую нелинейные по внешнему виду модели могут быть приведены к линейному виду, что позволяет их относить к классу линейных.
Метод наименьших квадратов.
(МНК) – классический подход к оцениванию параметров линейной регрессии.
Оценки параметров линейной регрессии могут быть найдены разными способами.
Обратимся к полю корреляции.
Коэффициент детерминации (R^2 — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости R^2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.
Интерпретация
- Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50 % (в этом случае коэффициент множественной корреляции превышает по модулю 70 %). Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими (коэффициент корреляции превышает 90 %). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
- При отсутствии статистической связи между объясняемой переменной и факторами, статистика nR^2 для линейной регрессии имеет асимптотическое распределение Х^2(k-1)}, где k-1 — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика F=R^2/(k-1)}/(1-R^2)/(n-k)}}} имеет точное (для выборок любого объёма) распределение Фишера F(k-1,n-k) (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.
- Коэффициент детерминации не может быть отрицательным, данный вывод исходит из свойств коэффициента детерминации. Однако скорректированный коэффициент детерминации вполне может принимать отрицательные значения.
В коэффициент детерминации - число от 0 до 1, которое представляет долю точек (X, Y), которые следуют за линией регрессии соответствия набора данных с двумя переменными. Он также известен как степень соответствия и обозначается R 2. Для его вычисления берется частное между дисперсией данных Ŷi, оцененных с помощью регрессионной модели, и дисперсией данных Yi, соответствующих каждому Xi данных. р 2 = Sŷ / Sy.
Выводы:
Коэффициент детерминации показывает силу связи между двумя случайными величинами
Если модель всегда предсказывает точно, метрика равна 1. Для тривиальной модели - 0
Значение метрики может быть отрицательно, если модель предсказывает хуже, чем тривиальная
Это одна из немногих несимметричных метрик эффективности
Эта метрика не определена, если y=const. Надо следить, чтобы в выборке присутствовали разные значения целевой переменной
Логистическая регрессия - Это разновидность множественной регрессии, Использует логит-преобразование.
Логистическая регрессия или логит-модель (англ. logit model) — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).
Чем отличается линейная регрессия от логистической?
Они отличаются решаемыми задачами.
Линейная регрессия предсказывает непрерывную величину, например, курс валюты, стоимость недвижимости и прочее.
Логистическая регрессия используется для предсказания бинарной величины (да/нет), например, купят ли этот дом, похоже ли изображение на собаку и прочее.
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная {\displaystyle y}, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.
Mean absolute error In statistics, mean absolute error (MAE) is a measure of errors between paired observations expressing the same phenomenon. Examples of Y versus X include comparisons of predicted versus observed, subsequent time versus initial time, and one technique of measurement versus an alternative technique of measurement. MAE is calculated as the sum of absolute errors divided by the sample size.
Средняя абсолютная ошибка (MAE)
В MAE ошибка рассчитывается как среднее абсолютных разностей между целевыми значениями и прогнозами. MAE - это линейная оценка, которая означает, чтовсе индивидуальные различия взвешены одинаковов среднем. Например, разница между 10 и 0 будет вдвое больше разницы между 5 и 0. Однако то же самое не верно для RMSE. Математически он рассчитывается по следующей формуле:
он не так чувствителен к выбросам, как среднеквадратическая ошибка.
Авторегрессия
Авторегрессия - это оценка значений ряда по прошлым значениям этого же ряда. Например, если Вы пытаетесь предсказать курс доллара по таким внешним признакам, как цена нефти, биржевой индекс, новости о снижении или увеличении добычи нефти - это регрессия, а если пытаться угадать курс доллара на следующий день только по курсу доллара в предыдущие дни, то это авторегрессия.
Модель ARIMA класс статистических моделей для анализа и прогнозирования данных временных рядов. Он явно обслуживает набор стандартных структур данных временных рядов и, как таковой, предоставляет простой, но мощный метод для создания искусных прогнозов временных рядов. ARIMA - это аббревиатура от AutoRegressive Integrated Moving Average.
ARIMA (англ. autoregressive integrated moving average, иногда модель Бокса — Дженкинса, методология Бокса — Дженкинса) — интегрированная модель авторегрессии — скользящего среднего — модель и методология анализа временных рядов. Является расширением моделей ARMA для нестационарных временных рядов, которые можно сделать стационарными взятием разностей некоторого порядка от исходного временного ряда (так называемые интегрированные или разностно-стационарные временные ряды).
Подход ARIMA к временным рядам заключается в том, что в первую очередь оценивается стационарность ряда. Различными тестами выявляются наличие единичных корней и порядок интегрированности временного ряда (обычно ограничиваются первым или вторым порядком). Далее при необходимости (если порядок интегрированности больше нуля) ряд преобразуется взятием разности соответствующего порядка и уже для преобразованной модели строится некоторая ARMA-модель, поскольку предполагается, что полученный процесс является стационарным, в отличие от исходного нестационарного процесса (разностно-стационарного или интегрированного процесса порядка {\displaystyle d}).
Модель ARIMA учитывает:
Авторегрессию, Скользящее среднее, Разность необработанных наблюдений
Модель ARMA
Модель авторегрессии - скользящего среднего - Одна из математических моделей, использующихся для анализа и прогнозирования стационарных временных рядов в статистике. Модель ARMA обобщает две более простые модели временных рядов - модель авторегрессии и модель скользящего среднего.
Авторегрессионное скользящее среднее. Под обозначением ARMA(p,q) понимается модель, содержащая p авторегрессионных составляющих и q скользящих средних. Точнее модель ARMA(p,q) включает в себя модели AR(p) и MA(q): , Погрешности. Обычно значения ошибки полагают независимыми одинаково распределёнными случайными величинами, взятыми из нормального распределения с нулевым средним: , где — дисперсия.
Модель ARMA учитывает: Авторегрессию, Скользящее среднее