Парадокс Линдли

Парадокс Линдли — это контринтуитивная ситуация в статистике, при которой байесовский и частотный^[en] подходы к задаче проверки гипотез дают различные результаты при определённых выборах априорного распределения. Проблема разногласия между двумя подходами обсуждалась в книге Гарольда Джеффриса 1939 года^[1]. Проблема стала известна как парадокс Линдли после того, как Деннис Линдли высказал несогласие с парадоксом в статье 1957^[2].

Хотя ситуация описывается как парадокс, различие байесовского и частотного подходов можно объяснить как использования их для ответа на фундаментально различные вопросы, а не действительного разногласия между двумя методами.

Как бы то ни было, для большого класса априорные разности между частотным и байесовским подходами вызваны сохранением уровня значимости. Как Линдли понял: «теория не может обосновать практику сохранения уровня значимости» и даже «некоторые вычисления, сделанные профессором Пирсоном в обсуждении этой статьи подчёркивают, насколько уровень значимости может меняться с изменением размера выборки, если потери и априорные вероятности остаются неизменными»^[2]. Фактически, если критичное значение растёт с ростом размера выборки достаточно быстро, рассогласование между частотным и байесовским подходами становится ничтожным^[3]^[4].

Описание парадокса[править | править код]

Рассмотрим результат $x$ некоторого эксперимента с двумя возможными объяснениями, гипотезами $H_{0}$ и $H_{1}$ , и некоторым априорным распределением $\pi$ , представляющим неопределённость, какая гипотеза более точна перед рассмотрением $x$ .

Парадокс Линдли обнаруживается в случае:

Результат $x$ оказывается «значимым» для частотного теста гипотезы $H_{0}$ , показывающим значимое свидетельство к отбрасыванию гипотезы $H_{0}$ , скажем, на уровне 5 %.
Апостериорная вероятность гипотезы $H_{0}$ , задаваемая результатом $x$ высока, что убедительно свидетельствует о том, что гипотеза $H_{0}$ больше согласуется с $x$ , чем гипотеза $H_{1}$ .

Эти результаты могут случиться в одно и то же время, если $H_{0}$ очень специфично, $H_{1}$ более размыто, а априорное распределение не даёт предпочтения ни одному из них, как показано ниже.

Численный пример[править | править код]

Мы можем проиллюстрировать парадокс Линдли численным примером. Представим себе город, в котором родились 49581 мальчиков и 48870 девочек за определённый период времени. Наблюдаемая доля $x$ мальчиков составляет 49581/98451 ≈ 0,5036. Мы предполагаем, что число рождений мальчиков является биномиальной переменной с параметром $\theta$ . Мы хотим проверить, равно ли $\theta$ 0,5 или другому значению. То есть наша нулевая гипотеза гласит: $H_{0}:\theta =0,5$ , а альтернативной гипотезой будет $H_{1}:\theta \neq 0,5$ .

Частотный подход[править | править код]

Частотный подход проверки $H_{0}$ заключается в вычислении p-значения, вероятности наблюдения доли мальчиков не менее $x$ в предположении, что гипотеза $H_{0}$ верна. Поскольку число рождений большое, мы можем использовать нормальную аппроксимацию для доли рождения мальчиков $X\sim N(\mu ,\sigma ^{2})$ , с $\mu =np=n\theta =98451\times 0,5=49225,5$ и $\sigma ^{2}=n\theta (1-\theta )=98451\times 0,5\times 0,5=24612,75$ для вычисления

{\begin{aligned}P(X\geq x\mid \mu =49225,5)=\int _{x=49581}^{98451}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-({\frac {u-\mu }{\sigma }})^{2}/2}du\\=\int _{x=49581}^{98451}{\frac {1}{\sqrt {2\pi (24612,75)}}}e^{-{\frac {(u-49225,5)^{2}}{24612,75}}/2}du\approx 0,0117.\end{aligned}}

Мы также будем удивлены, если рассмотрим рождение 48870 девочек, то есть $x\approx 0,4964$ , так что частотный тест обычно осуществаляет двухстороннюю проверку, для которой p-значение было бы $p\approx 2\times 0,0117=0,0235$ . В обоих случаях p-значение меньше уровня значимости $\alpha$ в 5%, так что частотный подход отвергает гипотезу $H_{0}$ как несогласующуюся с наблюдаемыми данными.

Байесовский подход[править | править код]

Предполагая, что нет причин для предпочтения одной гипотезы другой, байесовский подход заключается в назначении априорных вероятностей $\pi (H_{0})=\pi (H_{1})=0,5$ , однородного распределения для $\theta$ для гипотезы $H_{1}$ и, затем, вычисления апостериорной вероятности для $H_{0}$ с помощью теоремы Байеса,

P(H_{0}\mid k)={\frac {P(k\mid H_{0})\pi (H_{0})}{P(k\mid H_{0})\pi (H_{0})+P(k\mid H_{1})\pi (H_{1})}}.

После наблюдения рождения $k=49581$ мальчиков из $n=98451$ новорождённых мы можем вычислить апостериорную вероятность каждой гипотезы с помощью функции распределения масс для биномиальной переменной,

{\begin{aligned}P(k\mid H_{0})&={n \choose k}(0,5)^{k}(1-0,5)^{n-k}\approx 1,95\times 10^{-4}\\P(k\mid H_{1})&=\int _{0}^{1}{n \choose k}\theta ^{k}(1-\theta )^{n-k}d\theta ={n \choose k}\mathrm {\mathrm {B} } (k+1,n-k+1)=1/(n+1)\approx 1,02\times 10^{-5}\end{aligned}}

где $\mathrm {\mathrm {B} } (a,b)$ является бета-функцией.

Из этих значений мы находим апостериорную вероятность $P(H_{0}\mid k)\approx 0,95$ , которая строго предпочитает $H_{0}$ перед $H_{1}$ .

Два подхода, частотный и байесовский, оказываются в конфликте, а это и есть «парадокс».

Примирение байесовского и частотного подходов[править | править код]

Однако, по меньшей мере, в примере Линдли, если мы возьмём последовательность уровней значимости $\alpha _{n}$ , таких, что $\alpha _{n}=n^{-k}$ с $k>{\tfrac {1}{2}}$ , то апостериорная вероятность нулевой гипотезы стремится к 0, что согласуется с отказом от нулевой гипотезы^[3]. В нашем числовом примере, если принять $k>{\tfrac {1}{2}}$ , в результате получим уровень значимости 0,00318, так что частотный подход не будет отбрасывать нулевую гипотезу, которая в общих чертах согласуется с байесовским подходом.

Распределение p при нулевой гипотезе и апостериорное распределение p.

Если используется информативное априорное распределение и проверка гипотезы, более похожей на гипотезу в частотном подходе, парадокс исчезает.

Например, если мы вычисляем апостериорное распределение $P(\theta \mid x,n)$ , используя однородное априорное распределение с $\theta$ (то есть $\pi (\theta \in [0,1])=1$ ), мы получим

P(\theta \mid k,n)=\mathrm {\mathrm {B} } (k+1,n-k+1).

Если мы используем это для проверки вероятности, что новорождённый более вероятно будет мальчиком, чем девочкой, то есть $P(\theta >0,5\mid k,n)$ , мы получим:

$\int _{0,5}^{1}\mathrm {\mathrm {B} } (49582,48871)\approx 0,983.$

Другими словами, очень похоже, что пропорция рождения мальчиков выше 0,5.

Ни один из анализов не даёт оценку величины эффекта^[en] прямо, но оба могут быть использованы для определения, например, является ли доля рождений мальчиков выше некоторого определённого порога.

Отсутствие действительного парадокса[править | править код]

Явное расхождение между двумя подходами вызвано комбинацией факторов. Во-первых, частотный подход проверяет $H_{0}$ выше без учёта $H_{1}$ . Байесовский подход вычисляет $H_{0}$ как альтернативу к $H_{1}$ и находит, что первая гипотеза больше согласуется с наблюдениями. Это потому, что последняя гипотеза существенно более размыта, так как значение $\theta$ может быть любым в интервале $[0,1]$ , что приводит к очень низкой апостериорной вероятности. Чтобы понять, почему, полезно рассмотреть две гипотезы как генераторы наблюдений:

В гипотезе $H_{0}$ мы выбираем $\theta \approx 0,500$ и задаём вопрос, насколько правдоподобно видеть 49581 мальчика при 98451 новорождённом.
В гипотезе $H_{1}$ мы выбираем $\theta$ случайно между 0 и 1 и задаём тот же вопрос.

Большинство возможных значений для $\theta$ при гипотезе $H_{1}$ очень плохо поддерживаются наблюдениями. По существу, явное несогласие между методами вообще не является несогласием, а являются двумя различными утверждениями относительно данных:

Частотный подход находит, что $H_{0}$ плохо объясняется наблюдениями.
Байесовский подход находит, что гипотеза $H_{0}$ существенно лучше объясняется наблюдениями, чем гипотеза $H_{1}$ .

Отношение пола новорождённых в 50/50 (мальчиков/девочек) согласно частотному тесту неправдоподобно. Всё же отношение 50/50 является лучшим приближением, чем большинство, но не все другие отношения. Гипотеза $\theta \approx 0,504$ подходила бы наблюдениям много лучше, чем все другие отношения, включая $\theta \approx 0,500$ .

Например^[5], из этого выбора гипотезы и априорной вероятности следует утверждение: «Если $\theta$ > 0,49 и $\theta$ < 0,51, то априорная вероятность $\theta$ быть ровно 0,5 равна 0,50/0,51 $\approx$ 98 %». Если дано такое сильное предпочтение для $\theta =0,5$ , легко видеть, что байесовский подход высказывается в пользу $H_{0}$ , учитывая, что $x\approx 0,5036$ , даже когда наблюдаемое значение $x$ лежит в $2,28\sigma$ от 0,5. Отклонение более $2\sigma$ от $H_{0}$ считается значимым в частотном подходе, но значимость отклоняется априорной вероятностью в байесовском подходе.

Если смотреть в другую сторону, мы можем видеть, что априорное распределение существенно плоским с дельта-функцией в точке $\theta =0,5$ . Ясно, что является сомнительным. Фактически, если вы попробуете нарисовать вещественные числа как непрерывные, будет логично предположить, что невозможно для заданного параметра $P(\theta =0,5)=0$ .

Более реалистичное распределение для $\theta$ на альтернативной гипотезе даёт менее удивительные результаты для апостериорной вероятности гипотезы $H_{0}$ . Например, если мы заменим $H_{1}$ на $H_{2}:\theta =x$ , то есть оценку максимального правдоподобия для $\theta$ , апостериорная вероятность гипотезы $H_{0}$ будет только 0,07 по сравнению с 0,93 для гипотезы $H_{2}$ (конечно, нельзя использовать в действительности оценку максимального правдоподобия как часть априорного распределения).

Современное обсуждение[править | править код]

Парадокс продолжает активно обсуждаться^[3]^[6]^[7].

См. также[править | править код]

Коэффициент Байеса

Примечания[править | править код]

↑ Jeffreys, 1939.
↑ ¹ ² Lindley, 1957, с. 187–192.
↑ ¹ ² ³ Spanos, 2013, с. 73–93.
↑ Naaman, 2016, с. 1526–1550.
↑ Данный раздел в английской версии подвергается критике как требующий полной переработки.
↑ Sprenger, 2013, с. 733–744.
↑ Robert, 2014.

Литература[править | править код]

Glenn Shafer. Lindley's paradox // Journal of the American Statistical Association. — 1982. — Т. 77, вып. 378. — С. 325–334. — doi:10.2307/2287244. — JSTOR 2287244.
Harold Jeffreys. Theory of Probability. — Oxford University Press, 1939.
Lindley D.V. A Statistical Paradox // Biometrika. — 1957. — Т. 44, вып. 1–2. — doi:10.1093/biomet/44.1-2.187. — JSTOR 2333251.
Michael Naaman. Almost sure hypothesis testing and a resolution of the Jeffreys-Lindley paradox // Electronic Journal of Statistics. — 2016. — Т. 10, вып. 1. — ISSN 1935-7524. — doi:10.1214/16-EJS1146.
Aris Spanos. Who should be afraid of the Jeffreys-Lindley paradox? // Philosophy of Science. — 2013. — Т. 80.1. — doi:10.1086/668875.
Jan Sprenger. Testing a Precise Null Hypothesis: The Case of Lindley's Paradox // Philosophy of Science. — 2013. — Т. 80. — doi:10.1086/673730.
Christian P. Robert. On the Jeffreys-Lindley Paradox // Philosophy of Science. — 2014. — Т. 81.2. — doi:10.1086/675729. — arXiv:1303.5973.

[_80bd2616ed9e0d9f-1] Jeffreys, 1939.

[_fc29967cd3277259-2] ¹ ² Lindley, 1957, с. 187–192.

[_29f6cd70d48c1fa8-3] ¹ ² ³ Spanos, 2013, с. 73–93.

[_a6c1e58785604bb4-4] Naaman, 2016, с. 1526–1550.

[5] Данный раздел в английской версии подвергается критике как требующий полной переработки.

[_6a30739c0dc9c91a-6] Sprenger, 2013, с. 733–744.

[_34240083ee335108-7] Robert, 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Парадокс Линдли

Содержание

Описание парадокса[править | править код]

Численный пример[править | править код]

Частотный подход[править | править код]

Байесовский подход[править | править код]

Примирение байесовского и частотного подходов[править | править код]

Отсутствие действительного парадокса[править | править код]

Современное обсуждение[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Парадокс Линдли

Описание парадокса[править | править код]

Численный пример[править | править код]

Частотный подход[править | править код]

Байесовский подход[править | править код]

Примирение байесовского и частотного подходов[править | править код]

Отсутствие действительного парадокса[править | править код]

Современное обсуждение[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Поиск