Регрессия представляет собой широкий класс статистических моделей, являющихся основой анализа данных и вывода в социальных науках. Более того, многие современные статистические методы основаны на модели линейной регрессии. По своей сути, регрессия описывает систематические отношения между одной или несколькими предикторными переменными с (как правило) одним результатом. Гибкость регрессии и ее многочисленные расширения делают ее основным статистическим инструментом, который социологи используют для моделирования своих основных гипотез с помощью эмпирических данных.
ИСТОРИЯ И ОПРЕДЕЛЕНИЕ
Первоначальным применением регрессии было исследование сэра Фрэнсиса Гальтона о высотах родителей и детей в конце 1800-х годов. Гальтон отметил, что у высоких родителей обычно были несколько более короткие дети, и наоборот. Он описал взаимосвязь между высотой родителей и детей, используя тип линии регрессии, и назвал феномен регрессии посредственностью. Таким образом, термин регрессия описывает конкретную находку (то есть взаимосвязь между ростом родителей и детей), но быстро привязывается к статистическому методу.
Линия регрессии описывает условное среднее значение результата при определенных значениях предиктора. Таким образом, это сводная информация о взаимосвязи между двумя переменными, которая приводит непосредственно к определению регрессии: «[чтобы понять], насколько это возможно, с доступными данными, как условное распределение ответа… изменяется между подгруппами, определяемыми возможные значения предиктора или предикторов »(Cook and Weisberg 1999, p. 27). Это определение не ссылается на оценку (т. Е. Как определяются коэффициенты регрессии?) Или статистический вывод (т. Е. Насколько хорошо коэффициенты выборки отражают популяцию, из которой они были выбраны?).
Исторически в регрессии использовались оценка методом наименьших квадратов (т. Е. Были найдены значения коэффициентов, которые минимизируют квадратичные ошибки εi) и вывод по частоте (т. Е. Изменчивость коэффициентов регрессии выборки исследуется в пределах теоретических распределений выборки и суммируется с помощью p-значений или доверительных интервалов) , Хотя регрессионные оценки наименьших квадратов и p-значения, основанные на частых выводах, являются наиболее распространенными настройками по умолчанию в статистических пакетах, они не являются единственными доступными методами оценки и вывода и не являются неотъемлемыми аспектами регрессии.
РАСШИРЕНИЯ ОСНОВНОЙ МОДЕЛИ РЕГРЕССИИ
Если бы регрессия только суммировала ассоциации между двумя непрерывными переменными, это было бы очень ограниченным инструментом для социологов. Тем не менее, регрессия была расширена во многих отношениях. Первоначальное и важное расширение модели позволило использовать несколько предикторов и предикторов нескольких типов, включая непрерывные, двоичные и категориальные. С учетом категориальных предикторов статистики отметили, что анализ моделей дисперсии с одним термином ошибки и аналогичными моделями являются частными случаями регрессии, а два метода (т. Е. Регрессия и анализ дисперсии) рассматриваются как различные аспекты общей линейной модель.
Второе важное расширение регрессии допускается для различных типов переменных результата, таких как двоичные, порядковые, номинальные и счетные переменные. Базовая модель линейной регрессии использует нормальное распределение в качестве модели вероятности. Обобщенная линейная модель, которая включает ненормальные результаты, повышает гибкость регрессии, позволяя использовать различные вероятностные модели (например, биномиальное распределение для двоичных результатов и распределение Пуассона для результатов подсчета), а предикторы связаны с результатом через функцию связи ( например, логит-преобразование для двоичных результатов и натуральный логарифм для результатов подсчета).
Помимо общих и обобщенных линейных моделей, были внесены многочисленные другие расширения базовой регрессионной модели, которые учитывают большую сложность, включая многовариантные результаты, модели путей, которые допускают множественные предикторы и результаты со сложными ассоциациями, модели структурных уравнений, которые вкладывают модели измерения для скрытые конструкции в моделях путей, многоуровневые модели, которые учитывают коррелированные данные из-за вложенных проектов (например, учащиеся в классных комнатах), и модели нелинейной регрессии, которые используют регрессию для соответствия сложным математическим моделям, в которых коэффициенты не связаны аддитивно с результатом. Хотя каждый из предыдущих методов обладает уникальными качествами, все они основаны на базовой модели линейной регрессии.
РЕГРЕССИЯ КАК ИНСТРУМЕНТ В СОЦИАЛЬНЫХ НАУЧНЫХ ИССЛЕДОВАНИЯХ
Исследование состоит из трех компонентов: вопросы исследования, основанные на теории, диктуют структуру исследования, которая, в свою очередь, диктует статистические методы. Таким образом, статистические методы отображают вопросы исследования на эмпирические данные, а статистические результаты дают ответы на эти вопросы в хорошо спланированном исследовании. В контексте научных исследований регрессия - это прежде всего прикладной инструмент для проверки теории с помощью эмпирических данных. Этот симбиоз между теоретическими моделями и статистическими моделями был движущей силой многих достижений и расширений регрессии, обсужденных выше.
Хотя регрессия может применяться как к данным наблюдений, так и к экспериментальным данным, регрессия играет особенно важную роль в данных наблюдений. С данными наблюдений нет рандомизации или вмешательства, и может быть множество потенциальных причин и объяснений изучаемого явления. Методы регрессии позволяют исследователям статистически контролировать дополнительные переменные, которые могут повлиять на результат. Например, в обсервационном исследовании неверности, которое фокусируется на возрасте как предикторе, может быть важно контролировать удовлетворенность отношениями, так как предыдущие исследования показали, что это связано как с вероятностью неверности, так и с возрастом. Поскольку коэффициенты регрессии в моделях множественной регрессии оцениваются одновременно, они контролируют присутствие других предикторов, часто описываемых как частичное влияние других предикторов.
Регрессия также может играть практическую роль в передаче результатов исследований. Коэффициенты регрессии, а также итоги регрессии (например, процент изменчивости исхода, объясняемый предикторами) количественно отражают важность модели регрессии и, следовательно, лежащей в основе теоретической модели. Кроме того, регрессионные модели являются уравнениями прогнозирования (т. Е. Коэффициенты регрессии являются масштабирующими коэффициентами для прогнозирования результата на основе предикторов), а регрессионные модели могут предоставлять оценки результатов на основе предикторов, что позволяет исследователю учитывать, как результат варьируется в зависимости от комбинации. конкретных значений предиктора.