Модерация в статистике

Модерация в статистике и регрессионном анализе — зависимость связи между двумя переменными от третьей переменной, которая называется модератором^[1]. Эффект модератора статистически характеризуется как взаимодействие; то есть категориальная (пол, этническая принадлежность, класс) или количественная (уровень заработной платы) переменная, которая влияет на направление и/или силу связи между зависимыми и независимыми переменными. В частности, в корреляционном анализе модератором является третья переменная, которая влияет на корреляцию нулевого порядка между двумя другими переменными, или наклон зависимой переменной к независимой переменной. В дисперсионном анализе основной снижающий эффект может быть представлен как взаимодействие между основной независимой переменной и фактором, задающим соответствующие условия её функционирования^[2].

Примеры

Анализ с модерацией в поведенческих науках^[англ.] предполагает использование линейного множественного регрессионного анализа или причинно-следственного моделирования. Для количественной оценки влияния модератора в множественном регрессионном анализе, регрессии случайной величины $Y$ на $X$ , в модель добавляется дополнительный член, который представляет собой взаимодействие между $X$ и модератором.

Таким образом, зависимость целевой переменной $Y$ от $x1$ и модерирующей переменной $x2$ будет выглядеть следующим образом:

$Y=b0+b1x1+b2x2+b3(x1*x2)+\epsilon$ .

В этом случае роль $x2$ как модератора достигается путём оценки $b3$ , параметра для члена взаимодействия^[2].

Мультиколлинеарность в регрессии

В модерируемом регрессионном анализе вычисляется новый предиктор взаимодействия $x1x2$ , который будет соотнесён с двумя основными переменными, используемыми для его расчёта. Это проблема мультиколлинеарности в умеренной регрессии. Мультиколлинеарность приводит к тому, что коэффициенты оцениваются с более высокими стандартными ошибками и, следовательно, большей неопределённостью.

В качестве средства от мультиколлинеарности используется центрирование среднего значения, однако оно не требуется в регрессионном анализе, поскольку в корреляционной матрице данные уже центрируются после вычисления корреляций. Корреляции выводятся из перекрёстного произведения двух стандартных баллов (Z-баллов) или статистических моментов.

Две категориальные независимые переменные

Если обе независимые переменные являются категориальными, мы можем проанализировать результаты регрессии для одной независимой переменной на определённом уровне другой независимой переменной. Допустим, что A и B являются одиночными фиктивными кодированными переменными (0,1) и что A представляет этническую принадлежность (0 = европейцы, 1 = азиаты), а B представляет условие в исследовании (0 = контрольное, 1 = тренировочное). Затем эффект взаимодействия показывает, отличается ли влияние условия на зависимую переменную Y для европейцев и азиатов и отличается ли влияние этнической принадлежности для этих двух условий. Коэффициент А показывает влияние этнической принадлежности на Y для контрольного условия, в то время как коэффициент В показывает эффект наложения экспериментального условия для европейских участников.

Чтобы проверить, есть ли какая-либо существенная разница между европейцами и азиатами в условиях эксперимента, мы можем просто запустить анализ с переменной условия, закодированной в обратном порядке (0 = экспериментальная, 1 = контрольная), так что коэффициент этнической принадлежности представляет влияние этнической принадлежности на Y в условиях эксперимента. Аналогичным образом, если мы хотим увидеть, оказывает ли эффект на участников из Азии, мы можем изменить код переменной этнической принадлежности (0 = азиаты, 1 = европейцы).

Одна категориальная и одна непрерывная независимая переменная

Если первая независимая переменная является категориальной переменной (например, пол), а вторая — непрерывной переменной (например, баллы по шкале удовлетворённости жизнью^[англ.] SWLS), то b1 представляет собой разницу в зависимой переменной между мужчинами и женщинами, когда удовлетворённость жизнью равна нулю. Однако нулевой балл по шкале удовлетворённости не имеет смысла, так как диапазон баллов составляет от 7 до 35^[3]. Если вычесть среднее значение оценки SWLS для выборки из оценки каждого участника, то среднее значение результирующей центрированной оценки SWLS будет равно нулю. При повторном анализе b1 представляет разницу между мужчинами и женщинами на среднем уровне оценки SWLS выборки.

Для исследования простого влияния пола на зависимую переменную (Y) возможно распределить её по трём категориям: высокий, умеренный и низкий SWLS^[4]. Если баллы непрерывной переменной не стандартизированы, можно просто вычислить эти три значения, добавляя или вычитая одно стандартное отклонение исходных баллов; если баллы непрерывной переменной стандартизированы, можно вычислить три значения следующим образом: высокий = стандартизированный балл — 1, умеренный (среднее значение = 0), низкий = стандартизированный балл + 1. Как и в случае с двумя категориальными независимыми переменными, b2 представляет собой влияние оценки SWLS на зависимую переменную для женщин. Путём обратного кодирования гендерной переменной можно получить эффект оценки SWLS на зависимую переменную для мужчин.

Кодирование в модерируемой регрессии

При рассмотрении категориальных переменных, таких как этнические группы и экспериментальные методы лечения, как независимые переменные в модерируемой регрессии, необходимо кодировать переменные таким образом, чтобы каждая кодовая переменная представляла определённую настройку категориальной переменной. Существует три основных способа кодирования: Dummy-кодирование переменных, кодирование эффектов и контрастное кодирование^[5].

Dummy-кодирование используется, когда имеется референтная группа или одно конкретное условие (например, контрольная группа в эксперименте), которое должно быть сопоставлено с каждой из других экспериментальных групп, используя среднее значение референтной группы, а каждый из нестандартизированных коэффициентов регрессии — это разница в зависимой переменной между одной из групп лечения и средним значением референтной группы (или контрольной группы). Эта система кодирования аналогична анализу ANOVA и подходит, когда исследователи имеют определённую референтную группу и хотят сравнить с ней каждую из других групп.

Кодирование эффектов используется, когда у человека нет определённой группы сравнения или контроля и нет запланированных ортогональных контрастов. В этом случае коэффициент регрессии — это разница между средним значением одной группы и средним значением всех групповых средних (например, среднее значение группы А минус среднее значение всех групп). Эта система кодирования подходит, когда группы представляют естественные категории.

Контрастное кодирование используется, когда имеется ряд ортогональных контрастов или групповых сравнений, которые должны быть исследованы. В этом случае нестандартизированный коэффициент регрессии представляет собой разницу между невзвешенным средним средним одной группы (А) и невзвешенным средним другой группы (В), где А и В — два набора групп в контрасте. Эта система кодирования уместна, когда у исследователей есть априорная гипотеза относительно специфических различий между групповыми средними^[6].

Две непрерывные независимые переменные

Если обе независимые переменные непрерывны, для интерпретации полезно либо центрировать, либо стандартизировать независимые переменные X и Z. (Центрирование включает вычитание общего среднего балла выборки из исходного балла; стандартизация делает то же самое с последующим делением на общее стандартное отклонение выборки.) Центрируя или стандартизируя независимые переменные, коэффициент X или Z можно интерпретировать как влияние этой переменной на Y на среднем уровне другой независимой переменной^[7].

Чтобы исследовать эффект взаимодействия, часто полезно построить график влияния X на Y при низких и высоких значениях Z. Часто для этого выбираются значения Z, которые на одно стандартное отклонение выше и ниже среднего, но можно использовать любые разумные значения (и в некоторых случаях есть более значимые значения для выбора). График обычно отображается путём оценки значений Y для высоких и низких значений как X, так и Z и создания двух линий для представления влияния X на Y при двух значениях Z. Иногда это дополняется простым анализом наклона, который определяет, является ли влияние X на Y статистически значимым при определённых значениях Z. Существуют различные инструменты, помогающие исследователям строить и интерпретировать такие двусторонние взаимодействия^[8].

Взаимодействие на высоком уровне

Принципы двухсторонних взаимодействий применимы, когда мы хотим исследовать трёхсторонние или высокоуровневые взаимодействия. Например, если мы имеем трёхстороннее взаимодействие между A, B и C, уравнение регрессии будет выглядеть следующим образом:

$Y=b0+b1A+b2B+b3C+b4AB+b5AC+b6BC+b7ABC+\epsilon$

Побочные эффекты высшего порядка

Стоит отметить, что надёжность условий более высокого уровня зависит от надёжности условий более низкого уровня. Например, если надёжность для переменной A равна 0,70, а надёжность для переменной B равна 0,80, то надёжность для переменной взаимодействия AxB равна 0,70 × 0,80 = 0,56. В этом случае низкая надёжность члена взаимодействия приводит к низкой мощности; поэтому мы не можем найти эффекты взаимодействия между А и В, которые действительно существуют. Решение этой проблемы заключается в использовании высоконадёжных мер для каждой независимой переменной.

Ещё одно объяснение для интерпретации эффектов взаимодействия состоит в том, что когда переменная A и переменная B сильно коррелируют, то слагаемое AxB будет сильно коррелировать с опущенной переменной A2; следовательно, то, что кажется значительным эффектом модерации, на самом деле может быть значительным нелинейным эффектом только A. Если это так, то стоит проверить нелинейную регрессионную модель, добавив нелинейные члены в отдельных переменных в модерируемый регрессионный анализ, чтобы увидеть, остаются ли взаимодействия значимыми. Если эффект взаимодействия AxB все ещё значим, мы будем более уверены в том, что действительно существует эффект модерации; однако, если эффект взаимодействия больше не значим после добавления нелинейного члена, мы будем менее уверены в существовании эффекта умеренности, и нелинейная модель будет предпочтительнее, потому что она более экономна.

Примечания

↑ Anna Shirokanova. Когда две независимые переменные взаимодействуют: эффекты модерации в социальных исследованиях (англ.).
↑ ¹ ² Cohen, Jacob; Cohen, Patricia; Leona S. Aiken; West, Stephen H. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, N.J: L. Erlbaum Associates. ISBN 0-8058-2223-2.
↑ Шкала удовлетворённости жизнью — Psylab.info (неопр.). psylab.info. Дата обращения: 5 марта 2021. Архивировано 10 декабря 2019 года.
↑ Cohen Jacob; Cohen Patricia; West Stephen G.; Aiken Leona S. Applied multiple regression/correlation analysis for the behavioral sciences (3. ed.). Mahwah, NJ [u.a.]: Erlbaum. pp. 255—301. ISBN 0-8058-2223-2.
↑ Aiken L.S., West., S.G. (1996). Multiple regression testing and interpretation (1. paperback print. ed.). Newbury Park, Calif. [u.a.]: Sage Publications, Inc. ISBN 0-7619-0712-2.
↑ Cohen Jacob; Cohen Patricia; West Stephen G.; Aiken Leona S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3. ed.). Mahwah, NJ [u.a.]: Erlbaum. pp. 302—353. ISBN 0-8058-2223-2.
↑ Dawson, J. F. (2013). Moderation in management research: What, why, when and how. Journal of Business and Psychology.
↑ Interpreting interaction effects (неопр.). www.jeremydawson.co.uk. Дата обращения: 8 марта 2021. Архивировано 1 ноября 2020 года.