Распределение хи-квадрат
Распределение . Распределение Пирсона | |
---|---|
Обозначение | или |
Параметры | — число степеней свободы |
Носитель | |
Плотность вероятности | |
Функция распределения | |
Математическое ожидание | |
Медиана | примерно |
Мода |
0 для если |
Дисперсия | |
Коэффициент асимметрии | |
Коэффициент эксцесса | |
Дифференциальная энтропия |
|
Производящая функция моментов | , если |
Характеристическая функция |
Распределе́ние (хи-квадра́т) с степеня́ми свобо́ды — распределение суммы квадратов независимых стандартных нормальных случайных величин.
Определение[править | править код]
Пусть — совместно независимые стандартные нормальные случайные величины, то есть: . Тогда случайная величина
имеет распределение хи-квадрат с степенями свободы, то есть , или, если записать по-другому:
- .
Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:
- ,
где означает гамма-распределение, а — гамма-функцию.
Функция распределения имеет следующий вид:
- ,
где и обозначают соответственно полную и нижнюю неполную гамма-функции.
Свойства распределения хи-квадрат[править | править код]
- Распределение хи-квадрат устойчиво относительно суммирования. Если независимы, и , а , то .
- Из определения легко получить моменты распределения хи-квадрат. Если , то
- ,
- .
- В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины может быть приближено нормальным . Более точно
- по распределению при .
Связь с другими распределениями[править | править код]
- Если независимые нормальные случайные величины, то есть: известно, то случайная величина
имеет распределение .
- Если , то распределение хи-квадрат совпадает с экспоненциальным распределением:
- .
- Если , тогда — распределение Эрланга.
- Если и , то случайная величина
имеет распределение Фишера со степенями свободы .
- (нецентральное хи-квадрат распределение с параметром нецентральности )
- Если и , тогда . (гамма-распределение)
- Если , тогда (хи распределение)
- Если (распределение Рэлея), тогда
- Если (распределение Максвелла), тогда
- Если и независимы, тогда — (бета-распределение)
- Если — (равномерное распределение), тогда
- — преобразование распределения Лапласа
- Если , тогда
- хи-квадрат распределение — преобразование распределения Парето
- t-распределение — преобразование распределения хи-квадрат
- t-распределение может быть пролучено из распределения хи-квадрат и нормального распределения
- Если и — независимы, тогда . Если и не являются независимыми, тогда не обязано быть распределено по закону хи-квадрат.
Вариации и обобщение[править | править код]
Дальнейшим обобщением распределения хи-квадрат является так называемое нецентральное распределение хи-квадрат , возникающее в некоторых задачах статистики.
Квантили[править | править код]
Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.
История[править | править код]
Критерий был предложен Карлом Пирсоном в 1900 году[1]. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 1029.
Общее обсуждение критерия и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена[2].
Приложения[править | править код]
Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии регрессии благодаря его роли в распределении Стьюдента. Оно используется в дисперсионном анализе.
Далее приведены примеры ситуаций, в которых распределение хи-квадрат возникает из нормальной выборки:
- если — независимые и одинаково распределенные по закону случайные величины, тогда , где
- В таблице показаны некоторые статистики, основанные на независимых случайных величин, распределения которых связаны с распределением хи-квадрат:
Название | Статистика |
---|---|
распределение хи-квадрат | |
нецентральное распределение хи-квадрат | |
распределение хи | |
нецентральное распределение хи |
Таблица значений χ2 и p-значений[править | править код]
Для любого числа p между 0 и 1 определено p-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение . Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное, чем эта точка, p-значение можно получить, если отнять от единицы значение функции распределения. Малое p-значение — ниже выбранного уровня значимости — означает статистическую значимость. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0,05.
В таблице даны p-значения для соответствующих значений у первых десяти степеней свободы.
Степени свободы (df) | Значение [3] | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0,004 | 0,02 | 0,06 | 0,15 | 0,46 | 1,07 | 1,64 | 2,71 | 3,84 | 6,63 | 10,83 |
2 | 0,10 | 0,21 | 0,45 | 0,71 | 1,39 | 2,41 | 3,22 | 4,61 | 5,99 | 9,21 | 13,82 |
3 | 0,35 | 0,58 | 1,01 | 1,42 | 2,37 | 3,66 | 4,64 | 6,25 | 7,81 | 11,34 | 16,27 |
4 | 0,71 | 1,06 | 1,65 | 2,20 | 3,36 | 4,88 | 5,99 | 7,78 | 9,49 | 13,28 | 18,47 |
5 | 1,14 | 1,61 | 2,34 | 3,00 | 4,35 | 6,06 | 7,29 | 9,24 | 11,07 | 15,09 | 20,52 |
6 | 1,63 | 2,20 | 3,07 | 3,83 | 5,35 | 7,23 | 8,56 | 10,64 | 12,59 | 16,81 | 22,46 |
7 | 2,17 | 2,83 | 3,82 | 4,67 | 6,35 | 8,38 | 9,80 | 12,02 | 14,07 | 18,48 | 24,32 |
8 | 2,73 | 3,49 | 4,59 | 5,53 | 7,34 | 9,52 | 11,03 | 13,36 | 15,51 | 20,09 | 26,12 |
9 | 3,32 | 4,17 | 5,38 | 6,39 | 8,34 | 10,66 | 12,24 | 14,68 | 16,92 | 21,67 | 27,88 |
10 | 3,94 | 4,87 | 6,18 | 7,27 | 9,34 | 11,78 | 13,44 | 15,99 | 18,31 | 23,21 | 29,59 |
p-значение | 0,95 | 0,90 | 0,80 | 0,70 | 0,50 | 0,30 | 0,20 | 0,10 | 0,05 | 0,01 | 0,001 |
Эти значения могут быть вычислены через квантиль (обратную функцию распределения) распределения хи-квадрат[4]. Например, квантиль для p = 0,05 и df = 7 дает =14,06714 ≈ 14,07, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.
В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь[5].
См. также[править | править код]
Примечания[править | править код]
- ↑ Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5. — Vol. 50, no. 302. — P. 157—175. — doi:10.1080/14786440009463897.
- ↑ Cochran W. G. The Test of Goodness of Fit (англ.) // Annals Math. Stat. — 1952. — Vol. 23, no. 3. — P. 315—345. Архивировано 10 апреля 2020 года.
- ↑ Chi-Squared Test Архивная копия от 18 ноября 2013 на Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.
- ↑ R Tutorial: Chi-squared Distribution . Дата обращения: 19 ноября 2019. Архивировано 16 февраля 2021 года.
- ↑ StatSoft: Таблицы распределений — Хи-квадрат распределение . Дата обращения: 29 января 2020. Архивировано 26 января 2020 года.
В другом языковом разделе есть более полная статья Chi-squared distribution (англ.). |