Поправка на множественную проверку гипотез
Поправка на мно́жественную проверку гипотез[1] (англ. multiple comparisons, multiplicity, multiple testing problem) — способ устранения эффекта множественных сравнений[2], возникающего при необходимости построения семейства статистических выводов. Во время проверки статистических гипотез при отвержении основной гипотезы (H0) возможна ошибка (ложное отклонение гипотезы, ошибка первого рода). Вероятность такого события ограничивается неким малым предварительно выбранным значением — уровнем значимости (обычно ). Тогда при построении выводов верхняя оценка вероятности того, что хотя бы один из них будет неверным, равна , что достаточно велико уже при небольших (например, при , она равна ). Для устранения этого эффекта было разработано несколько подходов[3].
История
Первым упоминанием о проблеме множественных сравнений можно считать рассуждение Антуана Августина Курно в работе Exposition de La Theorie Des Chances Et Des Probabilites (1843) о том, что при разделении популяции на как можно большее число групп рано или поздно найдется группа, значимо отличная от остальной совокупности. Тогда проблема была сочтена нерешаемой[4].
Следующая после работы Бонферрони (Teoria statistica delle classi e calcolo delle probabilità, 1936) волна интереса к проблеме множественного тестирования возникла в 1950-х годах в связи с работой Джона Тьюки и Генри Шеффе. Последующие работы были направлены на увеличение мощности поправок. Так, более мощная поправка Холма-Бонферрони была разработана в 1979 году. В 1995 году со статьи Бенджамини и Хохберга начались работы по FDR (доле ложных отклонений гипотез), что дало возможность тестировать большое количество гипотез[4].
В 1996 была проведена первая конференция по множественной проверке гипотез в Израиле, после чего она проходила каждые два года по всему миру[5].
Обозначения
Нулевая гипотеза верна | Нулевая гипотеза неверна | Всего | |
---|---|---|---|
Принимаем гипотезу | |||
Отвергаем гипотезу | |||
Всего |
- — общее число гипотез
- — число верных гипотез, неизвестный параметр
- — число неверных гипотез
- — число ложноположительных результатов false positives (ошибок первого рода)
- — число истинно положительных результатов (true positives)
- — число ложноотрицательных результатов false negatives (ошибок второго рода)
- — число истинно отрицательных результатов (true negatives)
- — число отвергнутых нулевых гипотез. и — наблюдаемые величины, а , , и — ненаблюдаемые.
Методы решения проблемы множественных сравнений
При слишком большом количестве испытаний увеличивается вероятность получить ложно-положительный результат (увеличение числа совершенных ошибок первого рода ). Задача состоит в том, чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез и ложных принятий . Для этого необходимо выбрать другое правило отвержения гипотез. Для задачи множественной проверки гипотез существует большое количество величин, обобщающих определение ошибки первого рода. Наиболее известны следующие:
- FWER — family-wise error rate[англ.], групповая вероятность ошибки первого рода: [6];
- FDP — false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений): [7];
- FDR — false discovery rate[англ.], средняя доля ложных отклонений гипотез (среди всех отклонений): [7].
Для каждой из приведенных мер существует свой способ ужесточения порога на значимость.
Групповая вероятность ошибки первого рода
Одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез. Величина определяется как вероятность совершения хотя бы одной ошибки первого рода[6]. По определению: [6]. Контроль над FWER на фиксированном уровне значимости означает, что выполняется неравенство [6].
Существует несколько методов контроля FWER.
Поправка Бонферрони
Метод поправки Бонферрони[англ.] утверждает, что для уменьшения ложноположительных результатов необходимо отклонить те гипотезы, для которых p-value по критерию [8][9]. Данная поправка позволяет получить , потому что
из неравенства Буля[англ.] следует, что для конечного или счетного набора событий, вероятность того, что произойдет хотя бы одно не больше, чем сумма вероятностей индивидуальных событий. Таким образом, если каждый индивидуальный тест будет проверяться на уровне значимости , где - количество рассматриваемых гипотез, то для всего семейства гипотез уровень значимости фиксируется на уровне :
,
где — количество отвергнутых истинных гипотез[10] .
Замечания
При увеличении в результате применения поправки Бонферрони мощность статистической процедуры резко уменьшается — шансы отклонить неверные гипотезы падают[7].
Метод Холма (поправка Холма — Бонферрони)
Метод Холма (поправка Холма — Бонферрони[англ.]) равномерно более мощный, чем поправка Бонферрони, и решает проблему падения мощности при росте числа гипотез[11]. Нисходящий метод[12].
Пусть — , упорядоченные от наименьшего к наибольшему. — соответствующие нулевые гипотезы. Процедура Холма определена следующим образом[12][13].
- Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
- Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
- И т. д.
Процедура обеспечивает [12]. Она равномерно мощнее метода Бонферрони[11].
Пример
Рассмотрим проверку 4-х гипотез при . Пусть для них получены p-value: 0,01; 0,04; 0,03 и 0,005. Расставим их по возрастанию: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Будут проверены следующие неравенства:
- → отклоняем данную нулевую гипотезу, двигаемся дальше.
- → отклоняем данную нулевую гипотезу, двигаемся дальше.
- → принимаем эту и следующую нулевые гипотезы, останавливаемся.
Метод Шидака
Уровень значимости для гипотез задаются следующим образом: .[14] Метод дает FWER при условии, что статистики независимы или выполнено свойство «положительной зависимости»[15][16]:
, [16]
Составим вариационный ряд p-значений: , где - соответствующие гипотезы. Процедура выглядит так:
- Если , то принимаем все гипотезы и останавливаемся, иначе отвергаем и продолжаем;
- Если , то принимаем все гипотезы и останавливаемся, иначе отвергаем и продолжаем;
- … и т. д.
Метод Шидака-Холма
Нисходящая процедура. Уровни значимости для гипотез задаются следующим образом[17]:
Контролирует FWER на уровне значимости , если статистики независимы в совокупности. Если статистики независимы в совокупности, нельзя построить контролирующую FWER на уровне процедуру мощнее, чем метод Шидака-Холма. При больших мало отличается от метода Холма[17].
Средняя доля ложных отклонений
Данная величина определяется как математическое ожидание доли ошибок среди отвергнутых гипотез.
Определим как отношение числа неверно отвергнутых гипотез ко всем отвергнутым гипотезам : . Таким образом, FDR:
при [7].
Контроль над FDR на уровне означает, что:
[7].
Метод Беньямини — Хохберга
Это восходящая процедура со следующими уровнями значимости[7]:
.
Пусть — уровни значимости , упорядоченные от наименьшего к наибольшему. — соответствующие гипотезы. Процедура Беньямини — Хохберга определена следующим образом.
- Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
- Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
- И т. д.
Если статистики независимы, этот метод контролирует FDR на уровне [7].
Масштабное множественное тестирование
Во многих исследованиях, к примеру в области геномики, требуется проверять тысячи или даже значительно больше гипотез. В области исследований генетических ассоциаций существует проблема невоспроизводимости результатов: результат, сильно значимый в одном исследовании, не повторяется в следующем. Причиной этого являются в том числе и последствия множественного тестирования[18].
В разных областях науки отношение к множественному тестированию неоднозначное. Есть мнение, что использование поправки на множественное сравнение, когда есть серьезные основания считать, что результаты будут правдивыми, не обязательно[19]. Также утверждается, что поправка на множественное тестирование — неэффективный метод проведения эмпирических исследований, потому что, контролируя ложно-положительные результаты, он приводит к появлению большого количества ложно-отрицательных. Однако с другой стороны утверждается, что усовершенствования в методах измерения и информационных технологиях облегчили появление больших наборов данных для разведочного анализа, что приводит к тестированию большого числа гипотез без предварительного предположения о том, что большинство из них правдивы. А это означает большое количество ложно положительных результатов, если поправка на множественное тестирование не проводится.
В масштабных тестированиях, если надо получить точные результаты, то лучше всего использовать FWER, однако если исследование разведочное и значимые результаты будут проверяться в независимом исследовании, предпочитают использовать FDR[7][20][21]. FDR, определяемое как ожидаемая доля ложно-положительных результатов среди всех положительных (значимых), позволяет определять набор «положительных кандидатов», которых можно рассматривать в дальнейших исследованиях[22].
Практика проводить много сравнений без поправки в надежде найти что-то значимое, применяемая сознательно или нет, иногда называется «p-hacking»[23][24].
Применение в биоинформатике
Проблема множественного сравнения в биологии встречается повсеместно при анализе омиксных[англ.] данных[20][25][26], так как одновременно происходит анализ множества переменных. Так, в полногеномных исследованиях ассоциаций и анализе дифференциальной экспрессии генов тестируется одновременно от сотен тысяч до миллионов гипотез. В большинстве случаев используется поправка Бонферрони или общепринятый для GWAS порог p-value [27], однако при этом происходит падение мощности исследования с сопутствующим ростом риска ложно-отрицательных результатов. Также нарушается предположение поправки Бонферрони о независимости проводимых сравнений, поскольку существует неравновесное сцепление генов, когда частоты сочетаний SNP отличаются от ожидаемых при условии отсутствия сцепления, поэтому встает вопрос, сколько проведено реальных независимых сравнений. Можно определить число независимых сравнений в таких условиях как число главных компонент, совокупно покрывающих более дисперсии исследуемых данных, тогда порог p-value, обеспечивающий статистическую значимость на уровне , пересчитывается следующим образом:
Также для решения проблемы множественных сравнений используются пермутационные тесты[28][30], такие как Rank product[англ.]. Предположение пермутационных тестов заключается в том, что если сравниваемые выборки пришли из одной совокупности, то обмен элементами между выборками не должен привести к значительному изменению тестовой статистики. Примерный общий алгоритм пермутационных тестов выглядит следующим образом[30]:
- Рассчитывается значение тестовой статистики для выборок экспериментальных данных
- Выборки объединяются в единый пул
- Из пула данных формируются случайным образом выборки такого же размера
- Рассчитывается значение тестовой статистики для нового набора выборок
- Многократным повторением пунктов 2-4 строится распределение тестовой статистики
- Исходя из построенного распределение и экспериментального значения тестовой статистики определяется p-value
При применении пермутационных тестов не требуется собственно коррекция уровня значимости или тестовых p-value. Пермутационные тесты не чувствительны к несбалансированности выборок, что полезно при анализе биологических данных[31].
См. также
Примечания
- ↑ Процедуры множественных проверок гипотез . Дата обращения: 1 мая 2019. Архивировано 1 марта 2018 года.
- ↑ О проблеме множественных проверок статистических гипотез . Дата обращения: 1 мая 2019. Архивировано 17 марта 2018 года.
- ↑ Multiple Testing . Дата обращения: 1 мая 2019. Архивировано 1 мая 2019 года.
- ↑ 1 2 Medical biostatistics for complex diseases. — Weinheim: Wiley-VCH, 2010. — 1 online resource (400 pages) с. — ISBN 9783527630332, 3527630333, 9783527325856, 3527325859, 9783527630349, 3527630341, 1282687786, 9781282687783.
- ↑ MCP Conference 2019 (англ.). MCP Conference 2019. Дата обращения: 12 апреля 2019. Архивировано 12 апреля 2019 года.
- ↑ 1 2 3 4 Hochberg Y. Tamhane, A. C. Multiple comparison procedures. — New York: Wiley. p. 5. ISBN 978-0-471-82222-6, 1987.
- ↑ 1 2 3 4 5 6 7 8 Yoav Benjamini, Yosef Hochberg. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing // Journal of the Royal Statistical Society: Series B (Methodological). — 1995-01. — Т. 57, вып. 1. — С. 289—300. — ISSN 0035-9246. — doi:10.1111/j.2517-6161.1995.tb02031.x.
- ↑ P. MIRONE. UN METODO APPROSSIMATO PER IL CALCOLO DELLE FREQUENZE DI VIBRAZIONE DI MOLECOLE CONTENENTI GRUPPI METILICI // Advances in Molecular Spectroscopy. — Elsevier, 1962. — С. 293—296. — ISBN 9781483213323.
- ↑ Teoria Statistica Delle Classi e Calcolo Delle Probabilità // Encyclopedia of Research Design. — 2455 Teller Road, Thousand Oaks California 91320 United States: SAGE Publications, Inc.. — ISBN 9781412961271, 9781412961288.
- ↑ Yosef Hochberg. A Sharper Bonferroni Procedure for Multiple Tests of Significance // Biometrika. — 1988-12. — Т. 75, вып. 4. — С. 800. — ISSN 0006-3444. — doi:10.2307/2336325.
- ↑ 1 2 Mikel Aickin and Helen Gensler. Adjusting for Multiple Testing When Reporting Research Results: The Bonferroni vs Holm Methods // American Journal of Public Health, Vol.86, No.5. — 1996. — Май.
- ↑ 1 2 3 Sture Holm. A Simple Sequentially Rejective Multiple Test Procedure // Scandinavian Journal of Statistics, Vol. 6, No. 2 (1979), pp. 65-70.
- ↑ Correction: An Improved Sequentially Rejective Bonferroni Test Procedure // Biometrics. — 1987-09. — Т. 43, вып. 3. — С. 737. — ISSN 0006-341X. — doi:10.2307/2532027.
- ↑ Zbyněk Šidák. Rectangular Confidence Regions for the Means of Multivariate Normal Distributions (англ.) // Journal of the American Statistical Association. — 1967-6. — Vol. 62, iss. 318. — P. 626—633. — ISSN 1537-274X 0162-1459, 1537-274X. — doi:10.1080/01621459.1967.10482935. Архивировано 30 января 2020 года.
- ↑ J P Shaffer. Multiple Hypothesis Testing (англ.) // Annual Review of Psychology. — 1995-1. — Vol. 46, iss. 1. — P. 561—584. — ISSN 1545-2085 0066-4308, 1545-2085. — doi:10.1146/annurev.ps.46.020195.003021. Архивировано 16 апреля 2019 года.
- ↑ 1 2 Burt S. Holland, Margaret D. Copenhaver. Improved Bonferroni-type multiple testing procedures // Psychological Bulletin. — 1988. — Т. 104, вып. 1. — С. 145—149. — ISSN 0033-2909. — doi:10.1037//0033-2909.104.1.145.
- ↑ 1 2 Статистический анализ данных (курс лекций, К.В.Воронцов) . www.machinelearning.ru. Дата обращения: 18 апреля 2019. Архивировано 10 мая 2019 года.
- ↑ Hui-Qi Qu, Matthew Tien, Constantin Polychronakos. Statistical significance in genetic association studies // Clinical & Investigative Medicine. — 2010-10-01. — Т. 33, вып. 5. — С. 266. — ISSN 1488-2353. — doi:10.25011/cim.v33i5.14351.
- ↑ Rothman, Kenneth J. No Adjustments Are Needed for Multiple Comparisons (неопр.) // Epidemiology. — 1990. — Т. 1, № 1. — С. 43—46. — doi:10.1097/00001648-199001000-00010. — PMID 2081237. — .
- ↑ 1 2 J. D. Storey, R. Tibshirani. Statistical significance for genomewide studies (англ.) // Proceedings of the National Academy of Sciences. — National Academy of Sciences, 2003-07-25. — Vol. 100, iss. 16. — P. 9440—9445. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.1530509100. Архивировано 19 июля 2008 года.
- ↑ Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia. Empirical Bayes analysis of a microarray experiment (англ.) // Journal of the American Statistical Association : journal. — 2001. — Vol. 96, no. 456. — P. 1151—1160. — doi:10.1198/016214501753382129. — .
- ↑ William S Noble. How does multiple testing correction work? (англ.) // Nature Biotechnology. — Nature Publishing Group, 2009-12. — Vol. 27, iss. 12. — P. 1135—1137. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt1209-1135. Архивировано 12 апреля 2019 года.
- ↑ Young, S. S., Karr, A. Deming, data and observational studies (неопр.) // Significance. — 2011. — Т. 8, № 3. — С. 116—120. — doi:10.1111/j.1740-9713.2011.00506.x. Архивировано 5 декабря 2020 года.
- ↑ Smith, G. D., Shah, E. Data dredging, bias, or confounding (англ.) // BMJ : journal. — 2002. — Vol. 325, no. 7378. — P. 1437—1438. — doi:10.1136/bmj.325.7378.1437. — PMID 12493654. — PMC 1124898.
- ↑ Anjana Grandhi, Wenge Guo, Shyamal D. Peddada. A multiple testing procedure for multi-dimensional pairwise comparisons with application to gene expression studies // BMC Bioinformatics. — 2016-02-25. — Т. 17. — ISSN 1471-2105. — doi:10.1186/s12859-016-0937-5.
- ↑ ScienceDirect . www.sciencedirect.com. Дата обращения: 13 апреля 2019.
- ↑ Gregory S. Barsh, Gregory P. Copenhaver, Greg Gibson, Scott M. Williams. Guidelines for Genome-Wide Association Studies // PLoS Genetics. — 2012-07-05. — Т. 8, вып. 7. — ISSN 1553-7390. — doi:10.1371/journal.pgen.1002812. Архивировано 7 января 2021 года.
- ↑ 1 2 Randall C Johnson, George W Nelson, Jennifer L Troyer, James A Lautenberger, Bailey D Kessing. Accounting for multiple comparisons in a genome-wide association study (GWAS) // BMC Genomics. — 2010-12-22. — Т. 11. — С. 724. — ISSN 1471-2164. — doi:10.1186/1471-2164-11-724.
- ↑ Xiaoyi Gao, Joshua Starmer, Eden R. Martin. A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms // Genetic Epidemiology. — 2008-5. — Т. 32, вып. 4. — С. 361—369. — ISSN 0741-0395. — doi:10.1002/gepi.20310. Архивировано 13 апреля 2019 года.
- ↑ 1 2 Ronglin Che, John R Jack, Alison A Motsinger-Reif, Chad C Brown. An adaptive permutation approach for genome-wide association study: evaluation and recommendations for use // BioData Mining. — 2014-06-14. — Т. 7. — С. 9. — ISSN 1756-0381. — doi:10.1186/1756-0381-7-9.
- ↑ Benjamin T. Files, Vernon J. Lawhern, Anthony J. Ries, Amar R. Marathe. A Permutation Test for Unbalanced Paired Comparisons of Global Field Power // Brain Topography. — 2016. — Т. 29. — С. 345—357. — ISSN 0896-0267. — doi:10.1007/s10548-016-0477-3.
Литература
- E. L. Lehmann, J. P. Romano. Chapter 9: Multiple testing and simultaneous inference // Testing statistical hypotheses : [англ.]. — 3rd ed. — New York : Springer, 2005. — 786 p.
- Peter H. Westfall, S. Stanley Young. Resampling-Based Multiple Testing: Examples and Methods for p-Value Adjustment : [англ.]. — Wiley, 1993. — 360 p. — ISBN 978-0-471-55761-6.