Автор — Алиса Годованец
Во многих исследованиях встаёт вопрос: каким образом переменная X влияет на переменную Y и не вмешиваются ли при этом какие-то другие факторы? На практике нередко оказывается, что если ограничиться анализом лишь X и Y, то выводы могут быть искажёнными или неполными. Одни факторы искажают видимую связь (их называют конфаундерами или спутывающими переменными), другие объясняют, за счёт чего X воздействует на Y (их называют медиаторами), а третьи определяют условия, при которых связь становится сильнее или слабее (их называют модераторами). Чтобы избежать неправильной интерпретации данных, важно уметь отличать эти типы «третьих переменных» друг от друга и корректно учитывать их в статистическом или причинном анализе. Ниже расскажем о каждом типе поподробнее.
Спутывающие переменные (конфаундеры)
Спутывающая переменная (часто обозначаемая Z) — это фактор, который причинно влияет и на X, и на Y. Он «спутывает» или искажает связь между X и Y, заставляя нас видеть ассоциацию (или её силу), отличающуюся от истинной. В причинно-следственных диаграммах (каузальных графах) конфаундеры обычно рисуют как Z, из которого идут стрелки в X и в Y. Без учёта такого фактора можно ошибочно заключить, что X активно воздействует на Y, хотя на самом деле эффект связан именно с Z, который влияет и на X, и на Y.
Типичным примером может быть ситуация, когда кажется, что люди с большим размером ноги (X) имеют более высокий доход (Y). При поверхностном рассмотрении может показаться, что именно большой размер ступни «обеспечивает» хороший заработок. Однако более детальный анализ показывает, что с возрастом (Z) растут и стопа, и доход: дети и подростки, как правило, имеют маленький размер ноги и не обладают собственным заработком, а взрослые носят большую обувь и работают. В результате возраст (Z) здесь выступает внешним фактором (конфаундером), который одновременно влияет на размер ноги и на доход, «создавая» иллюзию прямой связи X–Y.
Существует несколько способов бороться с конфаундерами. Во-первых, это рандомизация, когда участников случайным образом распределяют по группам, чтобы систематические отличия выравнивались — это минимизирует влияние потенциальных конфаундеров. Во-вторых, это стратификация данных, при которой исследователь выделяет группы (страты) по значениям возможного конфаундера и отдельно анализирует связь X–Y в каждой группе, а уже потом объединяет результаты. В-третьих, это множественный регрессионный анализ с введением Z в модель как дополнительной предикторной переменной. Например, если рассматривать зависимую переменную Y, предиктор X и конфаундер Z, то часто используют уравнение вида
Y = b0 + b1X + b2Z + e,
где b1 отражает очищенное влияние X на Y при контроле Z. В некоторых исследованиях применяют метод «подбора» (matching): к каждому объекту, уже попавшему в исследуемую группу, подбирают похожего (по полу, возрасту, ряду других признаков), но относящегося к контрольной группе, чтобы минимизировать воздействие внешних факторов. В целом грамотно выделенные и учтённые конфаундеры позволяют получить корректную оценку чистого эффекта X на Y.
При этом стоит упомянуть ещё один тип переменных — коллайдеры. Их иногда называют в некотором смысле обратными конфаундерам, ведь если конфаундер служит общей «причиной» для X и Y (стрелки идут от конфаундера к X и к Y), то коллайдер, напротив, является их общим «эффектом» (стрелки идут от X и Y к коллайдеру). Специальный контроль такой переменной может парадоксальным образом вносить новые искажения, поэтому к коллайдерам нужно подходить особенно осторожно. Учёт коллайдера в условиях задачи с помощью регрессионного анализа, стратификации, экспериментального дизайна или выборки на основе значений коллайдера способен «открывать» путь между X и Y, что создаёт ложную причинную связь (парадокс Берксона). Иными словами, если мы включим коллайдер в анализ (например, отберём только участников с определёнными значениями этой переменной или добавим её как дополнительный предиктор в регрессию), то X и Y могут начать казаться статистически связанными, хотя в действительности никакой причинной зависимости между ними нет. Подобная систематическая ошибка приводит к неверной оценке каузального влияния и может серьёзно исказить проверку причинной теории. Но об этом поговорим подробнее в другой раз.
Медиация
Следующий тип «третьей переменной» — медиатор (M). Он расположен внутри причинной цепочки, то есть X вначале влияет на M, а M затем воздействует на Y, формируя последовательность X –> M –> Y. Это означает, что M объясняет, как именно X влияет на Y. Например, если X — регулярные физические тренировки, а Y — уровень стресса, то медиатором может быть улучшение сна (M): тренировки способствуют улучшению сна, а хороший сон уже ведёт к снижению стресса.
Чтобы формально разобрать медиацию в линейных моделях, часто рассматривают полное влияние X на Y (обозначают его C) и делят его на прямое (C') и косвенное (A*B). Здесь A — влияние X на M, а B — влияние M на Y при учёте X в модели. Полная медиация означает, что при введении медиатора в регрессионное уравнение прямое влияние X на Y практически исчезает. Частичная медиация — когда оно уменьшается, но не уходит полностью.
Выявить медиатора помогает несколько процедур. Исторически известен метод Барона и Кенни, согласно которому X должен сперва оказывать значимое влияние на Y и на M, а M, в свою очередь, должен оказывать значимое влияние на Y при контроле X. Однако современные исследования показывают, что значимая медиация может существовать даже при отсутствии значимого общего эффекта X на Y, что расширяет возможности применения медиационного анализа. Более точным считается тест Собеля, проверяющий, значим ли косвенный путь AB. Однако этот тест чувствителен к предположениям о нормальности и может потребовать большой выборки. Современные методы, основанные на бутстрэп-процедурах (bootstrap — когда многократно создаются случайные подвыборки с возвращением), дают более точную оценку доверительных интервалов для эффекта AB. Помимо бутстрэп-процедур, в современных исследованиях также популярны байесовские методы для оценки медиации, так как они позволяют учитывать неопределённость параметров и дают гибкие подходы к интерпретации эффектов.
Модерация
Третьим важным явлением считается модерация, когда присутствует переменная W, изменяющая силу и (или) направление связи X–Y. Иными словами, эффект X на Y при «низком» значении W может быть одним, а при «высоком» — совершенно другим. Модераторы часто называют переменными взаимодействия (interaction variables), поскольку в стандартном множественном регрессионном анализе модерация отражается в виде дополнительного члена X*W:
Y = b0 + b1X + b2W + b3*(X*W) + e.
Если коэффициент b3 оказывается статистически значимым, говорят, что есть эффект взаимодействия. Это значит, что при разных значениях W влияние X на Y меняется. Например, пусть X — это наличие травматического опыта, Y — качество жизни, а W — уровень социальной поддержки. У людей с низкой социальной поддержкой (малое значение W) травматический опыт может значительно снижать качество жизни. В то же время у людей с высокой социальной поддержкой (большое значение W) этот негативный эффект выражен гораздо слабее. Таким образом, социальная поддержка выступает модератором, смягчающим влияние травматического опыта на качество жизни.
Часто исследователи используют центрирование переменных X и W (то есть вычитание среднего значения из каждой переменной) перед умножением их друг на друга. Это облегчает интерпретацию коэффициентов модели и снижает проблему мультиколлинеарности. Центрирование уменьшает корреляцию между X, W и их взаимодействием (X * W), однако не устраняет её полностью, если исходные переменные (X и W) изначально сильно коррелируют.
После нахождения коэффициента взаимодействия (b3) анализируют «простые наклоны» (simple slopes), чтобы интерпретировать взаимодействие. Для этого строят графики или вычисляют влияние X на Y при условных значениях W, таких как среднее значение W (M), значение на одно стандартное отклонение ниже среднего (M - SD) и на одно стандартное отклонение выше среднего (M + SD). Если простые наклоны существенно отличаются, это свидетельствует о том, что переменная W модерирует связь X–Y. Формальное наличие модерации определяется значимостью коэффициента взаимодействия (b3).
Отличия и совмещение
Конфаундер (Z) существует «вне» связи X–Y и искажает её, потому что Z воздействует на обе стороны (и на X, и на Y). Медиатор (M) лежит внутри прямого пути, показывая механизм «X воздействует на Y через M». Модератор (W) изменяет силу или направление связи: связь может быть высокой при одном уровне W и низкой при другом.
На практике все три феномена могут присутствовать одновременно. Существуют и модели «модерируемой медиации», когда, например, сила косвенного пути X –> M –> Y сама зависит от W. В подобном случае либо эффект X–>M, либо M–>Y (или оба) может меняться при разных значениях модератора. Тогда для учёта таких сложных зависимостей строятся более развернутые регрессионные или структурные модели.
Практические примеры из разных областей науки
Рассматривая примеры "третьих переменных" в различных научных областях, можно лучше понять их практическую значимость. В экономических исследованиях конфаундеры часто встречаются при анализе факторов, влияющих на заработную плату. Например, изучая влияние опыта работы на уровень дохода, исследователи сталкиваются с тем, что образование выступает спутывающей переменной: люди с большим опытом работы, как правило, имеют более высокий уровень образования, который сам по себе влияет на зарплату. Без учёта образования как конфаундера можно существенно переоценить прямое влияние опыта на доход.
В психологических исследованиях особенно наглядно проявляются механизмы медиации. Классическим примером служит изучение влияния травматического опыта на развитие депрессии. Исследования показывают, что эта связь часто опосредуется снижением самооценки: травматический опыт сначала приводит к ухудшению самовосприятия, которое, в свою очередь, способствует развитию депрессивных симптомов. Понимание такого механизма имеет непосредственное практическое значение, поскольку помогает определить наиболее эффективные точки терапевтического вмешательства.
Медицинские исследования предоставляют богатый материал для изучения модерации. Особенно это заметно в фармакологических исследованиях, где эффективность лекарственных препаратов может существенно зависеть от характеристик пациента. Например, влияние антидепрессантов на улучшение состояния часто модерируется генетическими особенностями: у людей с определённым генотипом препарат может оказаться значительно более эффективным, чем у других. Именно понимание таких модерационных эффектов легло в основу современной персонализированной медицины.
Социология предоставляет уникальную возможность наблюдать все три типа эффектов одновременно. Показательным примером служит исследование влияния социально-экономического статуса (СЭС) на академическую успеваемость. Район проживания часто выступает как конфаундер, поскольку влияет как на СЭС семьи, так и на доступ к качественному образованию. Качество питания может служить медиатором, объясняя, как именно СЭС влияет на успеваемость через обеспечение лучших условий для когнитивного развития. При этом родительская поддержка часто выступает модератором, определяя, насколько сильным будет влияние СЭС на образовательные результаты.
Проблемы при анализе и выбор статистических методов
Этот раздел скорее для тех, кто сталкивается с проблемами «третьих переменных» в работе или учёбе.
При работе со спутывающими переменными исследователи часто сталкиваются с рядом концептуальных трудностей. Одна из самых серьёзных проблем заключается в том, что некоторые важные конфаундеры могут остаться неизмеренными или даже неизвестными исследователю. Также распространена ошибка избыточного контроля, когда исследователи включают в анализ переменные, которые на самом деле не являются истинными конфаундерами, что может привести к искажению оценок эффектов. Особую осторожность следует проявлять при статистическом контроле, не делая необоснованных предположений о линейности связей между переменными. Подход к анализу конфаундеров существенно зависит от дизайна исследования. В экспериментальных работах основным инструментом является рандомизация с последующей проверкой баланса групп по потенциальным конфаундерам. В наблюдательных исследованиях чаще применяется множественная регрессия с включением конфаундеров или методы подбора сходных случаев. При работе с категориальными переменными эффективным оказывается использование логистической регрессии или методов пропенсити-скоринга. В случае особенно сложных связей между переменными может потребоваться построение структурных уравнений или применение графовых моделей.
В области медиационного анализа одной из главных проблем является поспешное установление причинно-следственных связей на основе только статистических критериев. Исследователи иногда забывают о возможности обратной причинности между медиатором и зависимой переменной или недостаточно внимательно относятся к проверке условий применимости статистических тестов. Важно помнить, что для надёжного анализа медиации, особенно при использовании современных методов, требуются достаточно большие выборки. Для анализа медиации выбор метода во многом определяется характером данных и размером выборки. В простых случаях с нормально распределёнными переменными можно начать с классической процедуры Барона-Кенни, дополнив её тестом Собеля для проверки значимости косвенного эффекта. Однако в большинстве современных исследований предпочтительнее использовать бутстрэп-методы для оценки доверительных интервалов косвенных эффектов. При работе с небольшими выборками или сложными моделями с множественными медиаторами особенно полезными оказываются байесовские методы и структурные уравнения.
При исследовании модерации часто возникают сложности с интерпретацией результатов. Нередко исследователи неправильно трактуют главные эффекты при наличии значимого взаимодействия или пренебрегают центрированием предикторов, что существенно затрудняет понимание результатов. Сложности добавляет и то, что для выявления эффектов взаимодействия обычно требуется большая статистическая мощность, чем для обнаружения главных эффектов. Исследование модерации требует особого внимания к природе взаимодействующих переменных. При работе с непрерывными переменными стандартным подходом является множественная регрессия с центрированными предикторами и последующим анализом простых наклонов. Если модератор категориальный, более уместным может оказаться многогрупповой анализ или дисперсионный анализ с последующими контрастами. В случае сложных моделей, особенно при наличии вложенной структуры данных, может потребоваться применение иерархического регрессионного анализа или многоуровневого моделирования.
При выборе конкретного метода анализа важно учитывать целый комплекс факторов: тип имеющихся данных, размер выборки, предположения о распределении переменных, сложность теоретической модели, наличие пропущенных значений и временную структуру данных в случае лонгитюдных исследований. Только внимательное рассмотрение всех этих аспектов позволяет выбрать наиболее адекватный метод анализа и получить надёжные результаты.
Заключение
Успешный статистический и причинный анализ невозможен без понимания того, что «третьи переменные» способны существенно менять нашу интерпретацию. Таким образом, спутывающие факторы (конфаундеры) создают ложные ассоциации, медиаторы объясняют скрытые механизмы, а модераторы показывают, как условия (или типы объектов) влияют на силу и направление связи. Грамотное различение и учёт «третьих переменных» позволяет выявить реальные причинно-следственные закономерности и избежать слишком упрощённого взгляда на сложные зависимости между переменными.