Коэффициент Байеса

Коэффицие́нт Ба́йеса — байесовская альтернатива проверке статистических гипотез^[1]^[2]. Байесовское сравнение моделей — метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями^[3]. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет^[4]. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.

Определение

Коэффициент Байеса является отношением правдоподобия для предельного правдоподобия двух гипотез, обычно нулевой гипотезы и альтернативной^[5].

Апостериорная вероятность $\Pr(M|D)$ модели M, задаваемой данными D, определяется теоремой Байеса:

\Pr(M|D)={\frac {\Pr(D|M)\Pr(M)}{\Pr(D)}}.

Ключевой зависящий от данных член $\Pr(D|M)$ является правдоподобием модели M с учётом данных D и он представляет вероятность того, что некоторые данные получены в предположении принятия модели M. Правильное вычисление этого члена является ключом байесовского сравнения моделей.

Если дана задача выбора модели, в которой мы должны выбрать между двумя моделями на основе наблюдаемых данных D, относительная правдоподобность двух различных моделей M₁ и M₂, параметризованных векторами параметров $\theta _{1}$ и $\theta _{2}$ , определяется коэффициентом Байеса K, определяемым как

K={\frac {\Pr(D|M_{1})}{\Pr(D|M_{2})}}={\frac {\int \Pr(\theta _{1}|M_{1})\Pr(D|\theta _{1},M_{1})\,d\theta _{1}}{\int \Pr(\theta _{2}|M_{2})\Pr(D|\theta _{2},M_{2})\,d\theta _{2}}}={\frac {\Pr(M_{1}|D)}{\Pr(M_{2}|D)}}{\frac {\Pr(M_{2})}{\Pr(M_{1})}}.

Если две модели априори одинаково вероятны, так что $\Pr(M_{1})=\Pr(M_{2}),$ коэффициент Байеса равен отношению апостериорных вероятностей моделей M₁ и M₂. Если вместо интеграла коэффициента Байеса используется правдоподобие, соответствующее максимальной оценке правдоподобия параметра для каждой статистической модели, то тест становится классическим тестом отношения правдоподобия. В отличие от теста отношения правдоподобия, байесовское сравнение моделей не зависит от какого-либо конкретного набора параметров, так как оно вычисляется в результате интегрирования по всем параметрам в каждой модели (с учётом априорных вероятностей). Однако преимущество использования коэффициентов Байеса заключается в том, что они автоматически и вполне естественным образом включают штраф за избыточное включение структуры модели^[6]. Это ограждает от переобучения. В случае моделей, у которых явный вид функции правдоподобия неизвестен или её вычисление слишком затратно, для байесовского выбора модели могут быть использованы приближённые байесовские вычисления^[англ.] ^[7], хотя следует принять во внимание, что приближённая байесовская оценка коэффициентов Байеса часто смещена^[8].

Другие подходы:

трактовать модель сравнения как задачу принятия решений, вычисляя ожидаемое значение или цену каждого выбора модели;
использовать принцип сообщений минимальной длины (англ. minimum message length, MML).

Интерпретация

Значение K > 1 означает, что гипотеза M₁ сильнее поддерживается данными, чем гипотеза M₂. Заметим, что классическая проверка статистических гипотез принимает по умолчанию одну гипотезу (или модель) («нулевая гипотеза»), и рассматривает только свидетельства против неё. Гарольд Джеффрис приводит таблицу для интерпретации полученного значения K^[9]:

K	dHart	битов	Весомость доказательств
< 10⁰	0	—	Отрицательная (поддерживает M₂)
10⁰...10^1/2	0...5	0...1,6	Едва заслуживает внимания
10^1/2...10¹	5...10	1,6...3,3	Значительная
10¹...10^3/2	10...15	3,3...5,0	Сильная
10^3/2...10²	15...20	5,0...6,6	Очень сильная
> 10²	> 20	> 6,6	Убедительная

Второй столбец даёт соответствующие веса поддержки в единицах децихартли^[англ.] (известных также как децибаны^[англ.]), биты добавлены в третьем столбце для ясности. Согласно И. Дж. Гуду, люди в повседневной жизни едва могут разумно оценить разницу в степени доверия гипотезе, соответствующую изменению веса на 1 децибан или 1/3 бита (например, отношение исходов 4:5 в 9 испытаниях с двумя возможными исходами)^[10].

Альтернативную широко цитируемую таблицу предложили Касс и Рафтери (1995)^[6]:

log₁₀K	K	Весомость доказательств
от 0 до 1⁄2	от 1 до 3,2	Достойна лишь простого упоминания
от 1⁄2 до 1	от 3,2 до 10	Положительная
от 1 до 2	от 10 до 100	Сильная
> 2	> 100	Очень сильная

Использование коэффициентов Байеса или классической проверки статистических гипотез происходит в контексте вывода, а не принятия решений в условиях неопределённости. То есть мы только хотим найти, какая гипотеза верна, а не принимаем действительное решение на основе этой информации. Частотная статистика делает строгое различие между этими двумя подходами, поскольку классические методы проверки гипотез не когерентны в байесовском смысле. Байесовские процедуры, включая коэффициенты Байеса, когерентны, так что нет необходимости делать это различие. Вывод тогда просто рассматривается как частный случай принятия решения в условиях неопределённости, в котором конечным действием является возврат значения. Для принятия решений статистики, использующие байесовский подход, могут использовать коэффициент Байеса вместе с априорным распределением и функцией потерь. В контексте вывода функция потерь примет вид правила подсчёта результата^[англ.]. Использование логарифмического правила подсчёта^[англ.], например, приводит к ожидаемой полезности, принимающей форму расхождение Кульбака — Лейблера.

Пример

Предположим, что у нас есть случайная величина, которая принимает значение либо успех, либо неудача. Мы хотим сравнить модель M₁, где вероятность успеха равна q = ½, и другую модель M₂, в которой значение q неизвестно, и мы принимаем в качестве априорного распределения для q однородное распределение на [0,1]. Мы делаем 200 испытаний и получаем 115 успехов и 85 неудач. Правдоподобие может быть вычислено согласно биномиальному распределению:

{{200 \choose 115}q^{115}(1-q)^{85}}.

Тогда мы имеем для гипотезы M₁

P(X=115\mid M_{1})={200 \choose 115}\left({1 \over 2}\right)^{200}=0,005956...,\,

тогда как для M₂

P(X=115\mid M_{2})=\int _{0}^{1}{200 \choose 115}q^{115}(1-q)^{85}dq={200 \choose 115}\times \int _{0}^{1}q^{115}(1-q)^{85}dq={200 \choose 115}\times

\mathrm {B} (116,86)

={200 \choose 115}\times

\Gamma (116)\times \Gamma (86) \over \Gamma (116+86)

={\frac {200!}{{115!}\times {85!}}}\times {\frac {{115!}\times {85!}}{201!}}={1 \over 201}=0,004975....

Отношение этих величин составляет 1,197…, следовательно, различие «едва заслуживает внимания», хотя выбор склоняется слегка в сторону M₁.

Проверка этих статистических гипотез на основе частотного вывода^[англ.] M₁ (рассматривается здесь как нулевая гипотеза) даст совершенно другой результат. Такая проверка утверждает, что гипотеза M₁ должна быть отброшена на уровне значимости 5 %, поскольку вероятность получения 115 или более успехов из выборки в 200 элементов при q = ½ равна 0,0200, а двухсторонний критерий^[англ.] получения экстремума в 115 или более даёт 0,0400. Заметим, что 115 отличается от 100 более чем на два стандартных отклонения. Таким образом, в то время как проверка статистической гипотезы на основе частотного вывода даёт статистическую значимость на уровне 5 %, коэффициент Байеса вряд ли примет это как экстремальный результат. Заметим, однако, что неоднородное априорное распределение (например, такое, которое отражает ожидание, что числа успешных и неуспешных исходов будут одного порядка величины) может привести к коэффициенту Байеса, который больше согласуется с проверкой на основе частотного вывода.

В классическом тесте отношения правдоподобия была бы найдена оценка максимального правдоподобия для q, равная 115⁄200 = 0,575, откуда

\textstyle P(X=115\mid M_{2})={{200 \choose 115}q^{115}(1-q)^{85}}=0,056991

(вместо усреднения по всем возможным q). Это даёт отношение правдоподобия 0,1045 и указывает на гипотезу M₂.

M₂ является более сложной моделью, чем M₁, поскольку имеет свободный параметр, который позволяет описывать данные более согласованно. Способность коэффициентов Байеса учитывать это является причиной, почему байесовский вывод выдвигается как теоретическое обоснование и обобщение бритвы Оккама, в котором уменьшаются ошибки первого рода^[11].

С другой стороны, современный метод относительного правдоподобия принимает во внимание число свободных параметров моделей, в отличие от классического отношения правдоподобия. Метод относительного правдоподобия можно применить следующим образом. Модель M₁ имеет 0 параметров, а потому её значение информационного критерия Акаике (AIC) равно 2 · 0 − 2 ln 0,005956 ≈ 10,2467. Модель M₂ имеет 1 параметр, а потому её значение AIC равно 2 · 1 − 2 ln 0,056991 ≈ 7,7297. Следовательно, M₁ с меньшей вероятностью минимизирует потерю информации, чем M₂, примерно в exp((7,7297 − 10,2467)/2) ≈ 0,284 раза. Таким образом, M₂ слегка предпочтительнее, но M₁ отбрасывать нельзя.

Приложение

Коэффициент Байеса был применён для упорядочения динамической экспрессии генов вместо q-значения^[12].

См. также

Информационный критерий Акаике
Приближенные байесовские вычисления^[англ.]
Байесовский информационный критерий
Информационный критерий суммы квадратов отклонений от среднего^[англ.]
Парадокс Линдли
Сообщение минимальной длины
Выбор модели

Статистические показатели

Примечания

↑ Goodman (1), 1999, с. 995–1004.
↑ Goodman (2), 1999, с. 1005–13.
↑ Morey, Romeijn, Rouder, 2016, с. 6–18.
↑ Ly, Verhagen, Wagenmakers, 2016, с. 19–32.
↑ Good, Hardin, 2012, с. 129—131.
↑ ¹ ² Kass, Raftery, 1995, с. 791.
↑ Toni, Stumpf, 2009, с. 104–10.
↑ Robert, Cornuet, Marin, Pillai, 2011, с. 15112–15117.
↑ Jeffreys, 1961, с. 432.
↑ Good, 1979, с. 393—396.
↑ Sharpening Ockham’s Razor On a Bayesian Strop (неопр.). Дата обращения: 5 января 2019. Архивировано 12 сентября 2015 года.
↑ Hajiramezanali, Dadaneh, Figueiredo, Sze, Zhou, Qian, 2018.

Литература

Toward evidence-based medical statistics. 1: The P value fallacy // Ann Intern Med. — 1999. — Т. 130, вып. 12. — doi:10.7326/0003-4819-130-12-199906150-00008. — PMID 10383371.
Toward evidence-based medical statistics. 2: The Bayes factor // Ann Intern Med. — 1999. — Т. 130, вып. 12. — С. 1005–13. — doi:10.7326/0003-4819-130-12-199906150-00019. — PMID 10383350.
Richard D. Morey, Jan-Willem Romeijn, Jeffrey N. Rouder. The philosophy of Bayes factors and the quantification of statistical evidence // Journal of Mathematical Psychology. — 2016. — Т. 72. — doi:10.1016/j.jmp.2015.11.001.
Alexander Ly, Josine Verhagen, Eric-Jan Wagenmakers. Harold Jeffreys’s default Bayes factor hypothesis tests: Explanation, extension, and application in psychology // Journal of Mathematical Psychology. — 2016. — Т. 72. — С. 19–32. — doi:10.1016/j.jmp.2015.06.004.
Robert E. Kass, Adrian E. Raftery. Bayes Factors // Journal of the American Statistical Association. — 1995. — Т. 90, № 430. — doi:10.2307/2291091.
Toni T., Stumpf M.P.H. Simulation-based model selection for dynamical systems in systems and population biology // Bioinformatics. — 2009. — Т. 26, вып. 1. — doi:10.1093/bioinformatics/btp619. — arXiv:0911.1705. — PMID 19880371. — PMC 2796821.
Robert C.P., Cornuet J., Marin J., Pillai N.S. Lack of confidence in approximate Bayesian computation model choice // Proceedings of the National Academy of Sciences. — 2011. — Т. 108, вып. 37. — doi:10.1073/pnas.1102900108. — Bibcode: 2011PNAS..10815112R. — PMID 21876135. — PMC 3174657.
Jeffreys H. The Theory of Probability. — 3rd. — Oxford, 1961.
Good I.J. Studies in the History of Probability and Statistics. XXXVII A. M. Turing's statistical work in World War II // Biometrika. — 1979. — Т. 66, вып. 2. — doi:10.1093/biomet/66.2.393.
Hajiramezanali E., Dadaneh S. Z., Figueiredo P. d., Sze S., Zhou Z., Qian X. Differential Expression Analysis of Dynamical Sequencing Count Data with a Gamma Markov Chain. — 2018.
Phillip Good, James Hardin. Common errors in statistics (and how to avoid them). — 4th. — Hoboken, New Jersey: John Wiley & Sons, Inc., 2012. — ISBN 978-1118294390.
Bernardo J., Smith A. F. M. Bayesian Theory. — John Wiley, 1994. — ISBN 0-471-92416-4.
Denison D. G. T., Holmes C. C., Mallick B. K., Smith A. F. M. Bayesian Methods for Nonlinear Classification and Regression. — John Wiley, 2002. — ISBN 0-471-49036-9.
Richard O. Duda, Peter E. Hart, David G. Stork. Section 9.6.5 // Pattern classification. — 2nd. — Wiley, 2000. — С. 487–489. — ISBN 0-471-05669-3.
Gelman A., Carlin J., Stern H., Rubin D. Bayesian Data Analysis. — London: Chapman & Hall, 1995. — ISBN 0-412-03991-5.
Jaynes E. T. chapter 24: MODEL COMPARISON AND ROBUSTNESS // Probability Theory: the logic of science. — 1994.
Lee P. M. Bayesian Statistics: an introduction. — Wiley, 2012. — ISBN 9781118332573.
Robert Winkler. Introduction to Bayesian Inference and Decision. — 2nd. — Probabilistic, 2003. — ISBN 0-9647938-4-9.

Ссылка

BayesFactor —an R package for computing Bayes factors in common research designs
Bayes Factor Calculators —web-based version of much of the BayesFactor package

[_9f52f1e928af1fa5-1] Goodman (1), 1999, с. 995–1004.

[_d2667f8b7144be98-2] Goodman (2), 1999, с. 1005–13.

[_3615bbcd9643cc17-3] Morey, Romeijn, Rouder, 2016, с. 6–18.

[_9070e380985e6562-4] Ly, Verhagen, Wagenmakers, 2016, с. 19–32.

[_0b643c11b992c21e-5] Good, Hardin, 2012, с. 129—131.

[_777703096e9105c3-6] ¹ ² Kass, Raftery, 1995, с. 791.

[_725dfb28cf800e60-7] Toni, Stumpf, 2009, с. 104–10.

[_5d6014a6d5b8fdfb-8] Robert, Cornuet, Marin, Pillai, 2011, с. 15112–15117.

[_39a90bf979f2bebf-9] Jeffreys, 1961, с. 432.

[_7dad480e26f3d4ad-10] Good, 1979, с. 393—396.

[11] Sharpening Ockham’s Razor On a Bayesian Strop (неопр.). Дата обращения: 5 января 2019. Архивировано 12 сентября 2015 года.

[_09c1f3269b98a3a5-12] Hajiramezanali, Dadaneh, Figueiredo, Sze, Zhou, Qian, 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]