P-значение
P-значение (англ. P-value), p-уровень значимости, p-критерий — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.
Особенностью P-значений является их неустойчивость на эквивалентных выборках, что может стать препятствием для воспроизводимости результатов эксперимента[1][2][3]. Альтернативы использованию P-значений включают такие методы, как статистика оценки и коэффициент Байеса[4][5][6].
Формальное определение и процедура тестирования[править | править код]
Пусть — статистика, используемая при тестировании некоторой нулевой гипотезы . Предполагается, что если нулевая гипотеза справедлива, то распределение этой статистики известно. Обозначим функцию распределения . P-значение чаще всего (при проверке правосторонней альтернативы) определяется как:
При проверке левосторонней альтернативы,
В случае двустороннего теста p-значение равно:
Если p(t) меньше заданного уровня значимости, то нулевая гипотеза отвергается в пользу альтернативной. В противном случае она не отвергается.
Преимуществом данного подхода является то, что видно при каком уровне значимости нулевая гипотеза будет отвергнута, а при каких принята, то есть виден уровень надежности статистических выводов, точнее вероятность ошибки при отвержении нулевой гипотезы. При любом уровне значимости больше нулевая гипотеза отвергается, а при меньших значениях — нет.
Критика[править | править код]
Использование p-значений для проверки нулевых гипотез в работах по медицине, естественным наукам подвергается критике со стороны многих специалистов. Отмечается, что их использование нередко приводят к ошибкам первого рода (false positive)[7]. В частности, журнал Basic and Applied Social Psychology (BASP) в 2015 году вовсе запретил публикацию статей, в которых используются p-значения. Редакторы журнала объяснили это тем, что провести исследование, в котором получено p < 0,05 не очень сложно, и такие низкие значения p слишком часто становятся оправданием для низкопробных исследований[8].
Неправильная интерпретация P-значений[править | править код]
Широко распространено мнение о том, что P-значения часто неверно интерпретируются и неправильно используются[9][10][11]. Одна из практик, подвергшихся особой критике, заключается в принятии альтернативной гипотезы для любого P-значения, номинально меньшего 0,05 без других подтверждающих доказательств. Хотя P-значения полезны при оценке того, насколько несовместимы данные с данной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние доказательства изучаемого явления и обоснованность предположений, лежащих в основе анализа данных»[11]. Еще одна проблема заключается в том, что P-значение часто неверно понимается как вероятность того, что нулевая гипотеза верна[11][12]. Некоторые специалисты предложили заменить P-значения на альтернативные метрики доказательности[11], такие как доверительный интервал[13][14], отношение правдоподобий[15][16] или коэффициент Байеса[17][18][19], однако продолжается острая дискуссия о возможности применения таких альтернатив[20][21]. Другие специалисты предложили убрать фиксированные пороговые значения значимости и интерпретировать P-значения как непрерывные величины, характеризующие величину доказательств, направленных против правдоподобия нулевой гипотезы[22][23].
См. также[править | править код]
Примечания[править | править код]
- ↑ Cumming, 2008.
- ↑ Nuzzo, 2014.
- ↑ Halsey, Curran-Everett, Vowler et al., 2015.
- ↑ Cumming, 2010.
- ↑ Taroni, Biedermann, Bozza, 2016.
- ↑ Goodman, 2016.
- ↑ Douglas H. Johnson. The Insignificance of Statistical Significance Testing (англ.) // Journal of Wildlife Management. — Wiley-VCH, 1999. — Vol. 3, no. 63. — P. 763—772. Архивировано 10 июня 2018 года.
- ↑ Chris Woolston. Psychology journal bans P values (англ.) // Nature News. — 2015-03-05. — Vol. 519, iss. 7541. — P. 9—9. — doi:10.1038/519009f. Архивировано 28 февраля 2015 года.
- ↑ Scientists Perturbed by Loss of Stat Tool to Sift Research Fudge from Fact (англ.) // Scientific American : magazine. — Springer Nature, 2015. — 16 April. Архивировано 21 апреля 2015 года.
- ↑ Goodman S. N. Toward evidence-based medical statistics. 1: The P value fallacy (англ.) // Annals of Internal Medicine : journal. — 1999. — Vol. 130, no. 12. — P. 995—1004. — doi:10.7326/0003-4819-130-12-199906150-00008. — PMID 10383371.
- ↑ 1 2 3 4 Wasserstein, Ronald L.; Lazar, Nicole A. The ASA's statement on p-values: context, process, and purpose (англ.) // The American Statistician : journal. — 2016. — Vol. 70. — P. 129—133. — doi:10.1080/00031305.2016.1154108.
- ↑ Colquhoun, David. An investigation of the false discovery rate and the misinterpretation of p-values (англ.) // Royal Society Open Science : journal. — 2014. — Vol. 1. — P. 140216. — doi:10.1098/rsos.140216.
- ↑ Lee, Dong Kyu. Alternatives to P value: confidence interval and effect size (англ.) // Korean Journal of Anesthesiology : journal. — 2017. — 7 March (vol. 69, no. 6). — P. 555—562. — ISSN 2005-6419. — doi:10.4097/kjae.2016.69.6.555. — PMID 27924194. — PMC 5133225.
- ↑ Ranstam, J. Why the P-value culture is bad and confidence intervals a better alternative (англ.) // Osteoarthritis and Cartilage : journal. — 2012. — August (vol. 20, no. 8). — P. 805—808. — doi:10.1016/j.joca.2012.04.001. Архивировано 30 декабря 2017 года.
- ↑ Perneger, Thomas V. Sifting the evidence: Likelihood ratios are alternatives to P values (англ.) // BMJ: British Medical Journal : journal. — 2001. — 12 May (vol. 322, no. 7295). — P. 1184. — ISSN 0959-8138. — PMID 11379590. — PMC 1120301.
- ↑ Royall, Richard. The Likelihood Paradigm for Statistical Evidence // The Nature of Scientific Evidence (англ.). — P. 119—152. — doi:10.7208/chicago/9780226789583.003.0005. Архивировано 30 декабря 2017 года.
- ↑ Schimmack, Ulrich Replacing p-values with Bayes-Factors: A Miracle Cure for the Replicability Crisis in Psychological Science . Replicability-Index (30 апреля 2015). Дата обращения: 7 марта 2017. Архивировано 7 марта 2017 года.
- ↑ Marden, John I. Hypothesis Testing: From p Values to Bayes Factors (англ.) // Journal of the American Statistical Association : journal. — 2000. — December (vol. 95, no. 452). — P. 1316. — doi:10.2307/2669779.
- ↑ Stern, Hal S. A Test by Any Other Name: Values, Bayes Factors, and Statistical Inference (англ.) // Multivariate Behavioral Research : journal. — 2016. — 16 February (vol. 51, no. 1). — P. 23—29. — doi:10.1080/00273171.2015.1099032. — PMID 26881954. — PMC 4809350.
- ↑ Murtaugh, Paul A. In defense of p-values (неопр.) // Ecology. — 2014. — March (т. 95, № 3). — С. 611—617. — doi:10.1890/13-0590.1.
- ↑ Aschwanden, Christie Statisticians Found One Thing They Can Agree On: It’s Time To Stop Misusing P-Values . FiveThirtyEight (7 марта 2016). Дата обращения: 5 марта 2018. Архивировано 17 июня 2016 года.
- ↑ Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias. The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research (англ.) // PeerJ : journal. — 2017. — Vol. 5. — P. e3544. — doi:10.7717/peerj.3544. Архивировано 7 июля 2017 года.
- ↑ Amrhein, Valentin; Greenland, Sander. Remove, rather than redefine, statistical significance (англ.) // Nature Human Behaviour : journal. — 2017. — Vol. 1. — P. 0224. — doi:10.1038/s41562-017-0224-0.
Литература[править | править код]
- Cumming, G. Replication and p intervals: p values predict the future only vaguely, but confidence intervals do much better : [англ.] // Perspectives on Psychological Science . — 2008. — Vol. 3, no. 4. — P. 286—300. — doi:10.1111/j.1745-6924.2008.00079.x.
- Cumming, G. Understanding, teaching, and using p values // ICOTS-8 Conference Proceedings : Data and context in statistics education: towards an evidence-based society : [англ.] / C. Reading (Ed.). — International Association for Statistical Education : International Statistical Institute, 2010. — ISBN 978-90-77713-54-9.
- Goodman, S. N. . Aligning statistical and scientific reasoning: Misunderstanding and misuse of statistical significance impede science : [англ.] // Science. — 2016. — Vol. 352, no. 6290. — P. 1180—1181. — doi:10.1126/science.aaf5406.
- Halsey, L. G. The fickle P value generates irreproducible results : [англ.] / L. G. Halsey, D. Curran-Everett, S. L. Vowler [et al.] // Nature Methods. — 2015. — Vol. 12, no. 3. — P. 179—185. — doi:10.1038/nmeth.3288.
- Nuzzo, R. Statistical errors: P values, the “gold standard” of statistical validity, are not as reliable as many scientists assume : [англ.] // Nature. — 2014. — Vol. 506, no. 7487. — P. 150—152. — doi:10.1038/506150a.
- Taroni, F. Statistical hypothesis testing and common misinterpretations: Should we abandon p-value in forensic science applications? : [англ.] / F. Taroni, A. Biedermann, S. Bozza // Forensic Science International . — 2016. — Vol. 259 (February). — P. e32-e36. — doi:10.1016/j.forsciint.2015.11.013.
Ссылки[править | править код]
- Рубанович, А. В. Введение в байесовский анализ . Презентации к лекциям. ИОГен РАН. Дата обращения: 13 июня 2016.