Если не ограничиваться базовым вариантом Quick (Быстро), и нажать на кнопку Advanced (Расширенные настройки), можно продолжить и углубить уже начатый множественный линейный регрессионный анализ (multiple linear regression) зависимости систолического артериального давления (САД) .(мм рт.ст.) от возраста и уровня гемоглобина.
1. Summary: Regression results (Результаты регрессионного анализа)
Базовый вариант завершается на этапе получения итоговой таблицы регрессии, где суммированы результаты регрессионного анализа. Этой же таблицей начинается Advanced:
Итак, что у нас здесь получается? Искомая модель зависимости САД от возраста и уровня гемоглобина имеет вид уравнения регрессии следующего вида:
САД = 68,44 + 1,25 * Возраст + 0,04 * Гемоглобин + ε.
Это уравнение регрессии мы рассматриваем в качестве влияющего фактора, когда проводим следующий шаг - дисперсионный анализ (ANOVA) для этого уравнения.
2. Цель дисперсионного анализа — оценка качества построенного уравнения. Нулевая гипотеза Н0: гипотеза об отсутствии линейной связи между переменной-откликом и её предикторами.
Перед тем, как провести ANOVA в программе Statisticа, рассмотрим, как уравнение регрессии:
преобразуется для i-го наблюдения (!и для теоретических, рассчитанных по формуле выше значений коэффициентов регрессии!) в:
Теперь нажмём на кнопку ANOVA (Overall goodness of fit) (Дисперсионный анализ). Появится Таблица дисперсионного анализа для построенного уравнения регрессии:
- Вертикальная графа Sums of Squares (Сумма квадратов), соответствующая строке Regress (Регрессия, Факторная регрессия), характеризует вариацию результирующей зависимой переменной от переменных-предикторов: возраста и уровня гемоглобина.
Напротив строки Residual (Остатки, Остаточная дисперсия) находится остаточная вариация, обусловленная воздействием на переменную отклика всех прочих неучтённых в модели факторов.
Классический подход к оцениванию параметров линейной модели множественной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от расчетных y минимальна.
Тогда линия регрессии будет проходить в максимальной близости к эмпирическим данным.
Отсюда напрямую вытекает способ выбора лучшей регрессионной модели из некоторого их множества: величина остаточной дисперсии должна быть минимальной.
Наконец, общая дисперсия равна сумме факторной дисперсии и остаточной дисперсии: Total = Regress + Residual.
Отношение остаточной дисперсии к общей, приводит к получению коэффициента детерминации R2:
- Вторая вертикальная графа содержит df - степени свободы.
Напротив строки Regress: степень свободы для факторной дисперсии vf: число всех анализируемых переменных (у нас это 3) − 1 = 2;
Напротив строки Residual: степень свободы для остаточной дисперсии ve: число наблюдений (у нас - 16) минус число всех анализируемых переменных (у нас - 3) = 13.
- Третья вертикальная графа содержит Mean Squares (Средние квадраты). Это - Sums of Squares/df.
Напротив строки Regress: Mean Squares = Regress/vf = 4965,26/2 = 2482,63.
Напротив строки Residual: Mean Squares = Residual/ve = 90,68/13 = 6,98.
- В четвёртой вертикальной графе содержится F (величина F-критерия)
F = (Regress/vf) / (Residual/ve) = 2482,63/6,98 = 355,93
- Пятая графа содержит p-level (p-уровень). В нашем случае он высокозначим: p значительно меньше 0,001.
Таким образом, в нашем примере значение F(2,13) = 355,93 при уровне значимости р < 0,001, т. е. гипотеза Н0 об отсутствии линейной связи отклонятся.
3. Covariance of coefficients (Ковариация и корреляция регрессионных коэффициентов).
Этот этап необходим, прежде всего, чтобы исключить явление мультиколлинеарности. Оно возникает, если между независимыми переменными существуют тесные линейные корреляционные связи. Последствиями явления мультиколлинеарности будут: во-первых - плохая обусловленность корреляционной матрицы, оценки коэффициентов регрессии будут неустойчивы. И уравнение регрессии нельзя применять для прогноза зависимой переменной вне области определения независимых переменных! Во-вторых, возникает эффект избыточности - одна из переменных является совершенно лишней, ведь по поведению тесно связанной с ней переменной можно предсказать, как себя поведёт при дальнейших расчётах эта "лишняя" избыточная переменная. Чтобы исключить влияние мультиколлинеарности, логично отбросить в дальнейшем лишние независимые переменные из уравнения регрессии, и, возможно, включить в уравнение какие-либо другие предикторы.
Нажмём на кнопку Covariance of coefficients; мы получим две таблицы результатов:
- Корреляционную матрицу. С ней всё просто: это - обычные парные корреляции между независимыми переменными . Согласно данным из нашего примера, коэффициент корреляции между переменными Возраст и "Гемоглобин" - 0,84.
- Ковариационную матрицу. Здесь чуть сложнее, т.к. чтобы получить ковариацию двух величин x1 и x2 - cov (x1; x2), придётся применить формулу:
!Ковариация величины с самой собой - это и есть её дисперсия! Поэтому на главной диагонали ковариационной матрицы представлены оценки дисперсий независимых переменных. В нашем примере это 0,006 для Возраста и 0,003 для Гемоглобина, и ковариация между этими двумя величинами составляет -0,004.
4. Current sweep matrix (Текущая матрица выметания)
Искомая модель зависимости САД от возраста и уровня гемоглобина имеет вид уравнения регрессии следующего вида:
САД = 68,44 + 1,25 * Возраст + 0,04 * Гемоглобин + ε.
Посмотрев на последний столбик таблицы, мы можем прикинуть, как будет выглядеть наше уравнение регрессии в стандартизированном виде:
t (САД) = 0,95 * Возраст + 0,05 * Гемоглобин + 0,02
β-коэффициенты расставлены в последнем столбике. Они интерпретируются как некие абстрактные величины, указывающие, на сколько среднеквадратических отклонений увеличится зависимая переменная (САД) при изменении соответствующего независимой переменной на 1 среднеквадратическое отклонение. При фиксированных значениях остальных переменных! То есть, β (Возраст) = 0,95, означает, что на 0,95 поменяется САД при изменении возраста на единицу. β (Гемоглобин) = 0,05: на 0,05 поменяется САД при изменении уровня гемоглобина на единицу. А что же β(САД) = 0,02? При фиксированных Возраст и Гемоглобин именно на столько меняется САД при изменении на единицу неких факторов, не включённых в уравнение. То есть, по сути это ε - ошибка, обусловленная воздействием на переменную отклика всех прочих неучтённых в модели факторов.
Напомню, что β-коэффициенты используется для выявления фактора, оказывающего наибольшее влияние на зависимую переменную. Уже было рассчитано, что на САД оказывает наибольшее значение Возраст, но не Гемоглобин.
Аналогично получается, если мы последовательно выражаем независимые переменные через зависимые:
t (Возраст) = -3,47 + 2,93 * Гемоглобин + 0,95 * САД;
t (Гемоглобин) = 2,93 * Возраст - 3,47 + 0,05 * САД.
Главная диагональ текущей матрицы выметания позволяет сказать, есть ли в нашей модели неучтённые факторы, оказывающие сильное воздействие на переменную отклика. Значения по главной диагонали не должны быть слишком велики, в противном случае нам следует "вымести" из уравнения текущие независимые переменные и включить другие, которые, по нашему мнению, могут оказать большее влияние на нашу зависимую переменную. В нашем примере значения по главной диагонали не слишком велики, и можно продолжить анализ.
5. Partial correlations (Матрица частных корреляций)
Кнопка Partial correlations (Частная корреляция) позволяет оценить корреляционную взаимосвязь зависимой и одной независимой переменной исключая влияние остальных переменных.
Таблица содержит:
- Beta in - β-коэффициенты.
β (Возраст) = 0,95, β (Гемоглобин) = 0,05.
- Partial cor. - собственно Частные корреляции.
Здесь показана корреляционная взаимосвязь между зависимой САД и независимыми переменными-предикторами а) Возраст (напротив Возраст, в нашем примере 0,97) или б) Гемоглобин (напротив Гемоглобин, в нашем примере 0,19). Корреляция предиктора и отклика работает в предположении, что фиксируется как влияние других предикторов на данный предиктор, так и влияние предикторов на отклик.
Частные коэффициенты корреляции так же, как и β-коэффициенты, позволяют провести ранжирование предикторов по степени их влияния на отклик. Кроме того, частные коэффициенты корреляции широко используются при решении проблемы отбора предикторов. Целесообразность включения того или иного предиктора в модель определяется величиной частного коэффициента корреляции.
- Semipart Cor. - Получастные корреляции.
То же, что и Partial cor. (Частные корреляции), только работает в предположении, что контролируется влияние других предикторов на данный предиктор, но не контролируется влияние предикторов на отклик. Если получастная корреляция мала, в то время как частная корреляция относительно велика, то соответствующий предиктор может иметь самостоятельную «часть» в объяснении изменчивости зависимой переменной, т.е. «часть», которая не объясняется другими предикторами, но объясняется неучтёнными в данной модели факторами. В нашем примере а) Возраст (напротив Возраст) - 0,51, и б) Гемоглобин (напротив Гемоглобин) - 0,03.
- R-square -Частный коэффициент детерминации. Это квадрат частного множественного коэффициента корреляции - тот же множественный коэффициент корреляции, который складывается из частных же коэффициентов корреляции.
В нашем примере R-square = 0,71.
- Toleranse - Толерантность. Это 1 - R-square.
В нашем примере Toleranse = 0,29.
- t(13) - значение критерия Стьюдента для проверки гипотезы о значимости частного коэффициента корреляции с указанным (в скобках) числом степеней свободы.
У нас он составляет 13,73 для возраста и 0,69 для уровня гемоглобина.
- p-level (р-уровень) - вероятность отклонения гипотезы о значимости частных коэффициентов корреляции.
Частный коэффициент корреляции высокозначим (р < 0,001) для возраста и незначим (р = 0,5) для уровня гемоглобина.
6. Redundancy - Избыточность
Кнопка Redundancy позволяет просмотреть толерантность независимых переменных, коэффициент детерминации, коэффициенты частных и получастных корреляций, рассмотренные в пт.5.
Здесь хотелось бы пояснить, что означает "избыточность" в контексте множественных корреляций. Так как в пт 5. и 6. мы рассматриваем показатели, связанные с одной независимой переменной, мы исключаем влияние остальных переменных. При таком допущении особенно ярко просматривается возможная избыточность влияния независимых переменных на отклик. Для демонстрации избыточности чаще всего пользуется показателем Толерантность. Чем меньше толерантность переменной, тем более избыточен её вклад в уравнение регрессии.
При внимательном рассмотрении рабочего поля опции Advanced (Расширенные настройки), можно заметить ещё две неактивные кнопки - Stepwise regression summary и ANOVA adjusted for mean. Вкратце про них.
- Stepwise regression summary (Пошаговый регрессионный анализ)
Этот анализ применяется, когда переменных-кандидатов в предикторы - много! Отбор переменных в уравнение множественной регрессии в этом случае осуществляется в несколько этапов. Предусмотрено три варианта реализации пошагового регрессионного анализа:
1) Процедура “вперёд” (Forward) начинает «работать» с пустой моделью и последовательно включает в модель только значимые переменные. При этом на каждом шаге значимость каждой переменной определяется заново.
2) Процедура ”назад” (Backward) начинает «работать» с полной моделью и последовательно исключает из неё незначимые переменные. Значимость оставшихся переменных здесь пересчитывается также на каждом шаге.
3) Пошаговая процедура (Stepwise) включения-исключения переменных состоит в сочетании двух уже рассмотренных методов. Здесь после очередного включения-исключения переменной происходит перерасчёт значимости и включённых и исключённых переменных и, если какая-либо ранее включённая (исключённая) переменная оказывается незначимой (значимой), то она исключается из уравнения или включается в него.
- ANOVA adjusted for mean (ANOVA скорректированная на среднее)
Позволяет провести ANOVA в том случае, если в модель множественной линейной регрессии введён некий фактор, который мы можем контролировать (или который составляет предмет изучения). Выборка в этом случае будет а) контрольная, изменение состояния в которой, как ожидается, будет обусловлено только регрессией, и б) основная, в которой включён интересующий нас фактор. Таким образом мы можем бороться с так называемым феноменом регрессии к среднему: в любом ряду сложных явлений, зависящих от множества переменных, после экстремальных результатов обычно следуют более умеренные. Целью применения ANOVA adjusted for mean будет определить, наблюдаются ли в основной группе какие-то изменения кроме тех, которые можно объяснить простой регрессией.