Парадокс Берксона

Парадокс Берксона, ошибка коллайдера — положение математической статистики, сформулированное Дж. Берксоном^[англ.] (англ. Joseph Berkson) в 1946 году. Формулировка: два независимых события могут становиться условно зависимыми, если произошло некоторое третье событие. Этот вывод является контринтуитивным для некоторых людей, и таким образом может быть описан как парадокс. Третье событие, которое может сделать первые два события условно зависимыми, называется коллайдером. Парадокс Берксона часто описывается в области медицинской статистики или биостатистики. Он является усложняющим фактором, появляющимся в статистических проверках соотношений.

Этот же парадокс^[] упоминается в теории искусственных нейронных сетей как попутное объяснение, эффект оправдания или редукция причины (англ. explaining away)^[1]^[2]^[].

Формальное определение

если 0 < P(A) < 1 и 0 < P(B) < 1, где A и B — некоторые события,

и P(A|B) = P(A) (то есть события независимы),

тогда P(A|B,C) < P(A|C) где C = A∪B (то есть A или B).

Иллюстрация на примере из математической статистики

Будем исследовать статистику случайного выбора почтовых марок из набора, рассматривая два независимых свойства марки: «редкость» и «красоту».

Предположим, что имеется 1000 марок, среди которых 300 красивых, 100 редких, причём 30 и красивы, и редки. Очевидно, из всего набора 10 % марок редки, но и из всех красивых марок тоже 10 % редки, то есть красота марки ничего не говорит о её редкости.

Однако, если выбрать из всего набора (1000) все красивые марки и все редкие марки (таких марок 370), то в этой выборке редких марок будет уже 27 % (100 из 370), но из числа красивых марок редких все равно будет только 10 % (30 из 300). Тогда наблюдатель при анализе такой выборки (а не всего набора) увидит кажущуюся обратную зависимость между красотой и редкостью марки (если марка красивая, то вероятность её редкости ниже). Но на самом деле такой связи нет.

Описанный результат математически полностью корректен, его «парадоксальность» связана с особенностями восприятия людей, которые склонны интуитивно полагать, что если два параметра независимы, то они остаются таковыми в любой выборке. В действительности же в случае предвзятости отбора выборки между независимыми параметрами могут возникать условные зависимости, приводящие, при распространении их на всю генеральную совокупность, к грубым ошибкам анализа.

Иллюстрация на примере из теории нейронных сетей

Простой пример Байесовской сети для объяснения парадокса «Explaining away»

Пусть дана простейшая Байесовская искусственная нейронная сеть с сигмоидной функцией активации, содержащая два независимых события (причины) того, что возникнет третье событие — дом будет трястись. Смещение −10 у нейрона события землетрясения значит, что в отсутствии наблюдений и априорных знаний это событие в $e^{10}$ раз более вероятно не случится, нежели произойдет. Если произошло событие землетрясения, но не произошло событие грузовика, то нейрон события сотрясения дома имеет суммарно на входе 0, что означает вероятность возникновения события (то есть активации нейрона) 0,5. Таким образом, если мы имеем наблюдение события «дом трясется», то лучшее объяснение этому факту — возникновение одного из событий-причин. Однако нелогично считать, что произошли сразу оба события-причины, чтобы объяснить событие сотрясения дома, так как вероятность их одновременного возникновения равна $e^{-10}\cdot e^{-10}=e^{-20}$ . Таким образом, если мы наблюдаем и событие сотрясения дома, и знаем, что произошло, например, событие-причина землетрясение, то это выкидывает объяснение (англ. explaining away, редуцирует причину), что в сотрясении дома был виноват грузовик^[3].

Примечания

↑ Введение в байесовы сети / С. А. Терехов // Научная сессия МИФИ-2003. V Всероссийская научно-техническая конференция Нейроинформатика-2003 : Лекции по нейроинформатике / Отв. ред. Ю. В. Тюменцев (канд. техн. наук). — М. : МИФИ, 2003. — Ч. 1. — С. 154. — 188 с. : ил. — ГРНТИ 28.23.27. — ББК 32.818я5. — УДК 004.81.032.26(063)^(G). — ISBN 5-7262-0471-9.
↑ Лекция 1 «Байесовские и марковские сети» Архивная копия от 14 июля 2014 на Wayback Machine Д. П. Ветров Д. А. Кропотов А. А. Осокин. — МГУ, ВМиК, каф. ММП ВЦ РАН Курс «Графические модели»
↑ Hinton, G. E.^[англ.]; Osindero, S.; Teh, Y. A fast learning algorithm for deep belief nets (неопр.) // Neural Computation^[англ.]. — 2006. — Т. 18, № 7. — С. 1527—1554. — doi:10.1162/neco.2006.18.7.1527. — PMID 16764513. Архивировано 23 декабря 2015 года.

Литература

Berkson, J. Limitations of the application of fourfold tables to hospital data : [англ.] // Biometrics Bulletin : журн. — 1946. — Vol. 2, no. 3. — P. 47–53. — PMID 21001024.
Berkson, J. Limitations of the application of fourfold tables to hospital data : [англ.] = Berkson J. Limitations of the Application of Fourfold Table Analysis to Hospital Data. Biometrics Bulletin. 1946;2(3):47–53 // International Journal of Epidemiology. — 2014. — Vol. 43, no. 2. — P. 511–515. — doi:10.1093/ije/dyu022. — PMID 24585734.