Дисперсионный анализ
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях[1][2]. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance)[3].
Типы дисперсионного анализа[править | править код]
Суть дисперсионного анализа сводится к изучению влияния одной или нескольких независимых переменных, обычно именуемых факторами, на зависимую переменную. Зависимые переменные представлены значениями абсолютных шкал (шкала отношений). Независимые переменные являются номинативными (шкала наименований), то есть отражают групповую принадлежность, и могут иметь два или более значения (типа, градации или уровня). Примерами независимой переменной с двумя значениями могут служить пол (женский: , мужской: ) или тип экспериментальной группы (контрольная: , экспериментальная: ). Градации, соответствующие независимым выборкам объектов, называются межгрупповыми, а градации, соответствующие зависимым выборкам, — внутригрупповыми.
В зависимости от типа и количества переменных различают:
- однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных);
- одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных);
- дисперсионный анализ с повторными измерениями (для зависимых выборок);
- дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов;
Математическая модель дисперсионного анализа[править | править код]
Математическая модель дисперсионного анализа представляет собой частный случай основной линейной модели. Пусть с помощью методов производится измерение нескольких параметров , чьи точные значения — . В таком случае результаты измерений различных величин различными методами можно представить как:
,
где:
- — результат измерения -го параметра по методу ;
- — точное значение -го параметра;
- — систематическая ошибка измерения -го параметра в группе по методу ;
- — случайная ошибка измерения -го параметра по методу .
Тогда дисперсии следующих случайных величин:
(где:
)
выражаются как:
и удовлетворяют тождеству:
Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего: (от англ. Sum of Squares). Можно показать, что общая сумма квадратов раскладывается на межгрупповую сумму квадратов и внутригрупповую сумму квадратов :
Пусть точное значение каждого параметра есть его математическое ожидание, равное среднему генеральной совокупности . При отсутствии систематических ошибок групповое среднее и среднее генеральной совокупности тождественны: . Тогда случайная ошибка измерения есть разница между результатом измерения и средним группы: . Если же метод оказывает систематическое воздействие, то систематическая ошибка при воздействии этого фактора есть разница между средним группы и средним генеральной совокупности: .
Тогда уравнение может быть представлено в следующем виде:
, или
.
Тогда
где
Следовательно
Аналогичным образом раскладываются степени свободы:
где
и есть объём полной выборки, а — количество групп.
Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или (от англ. Mean Square), есть отношение суммы квадратов к числу их степеней свободы:
Соотношение межгрупповой и внутригрупповой дисперсий имеет F-распределение (распределение Фишера) и определяется при помощи (F-критерия Фишера):
Принципы и применение[править | править код]
Исходными положениями дисперсионного анализа являются
- нормальное распределение значений изучаемого признака в генеральной совокупности;
- равенство дисперсий в сравниваемых генеральных совокупностях;
- случайный и независимый характер выборки.
Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений:
При отклонении нулевой гипотезы принимается альтернативная гипотеза о том, что не все средние равны, то есть имеются, по крайней мере, две группы, отличающиеся средними значениями:
При наличии трёх и более групп для определения различий между средними применяются post-hoc t-тесты или метод контрастов.
Однофакторный дисперсионный анализ[править | править код]
Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t-критерию Стьюдента для независимых выборок, и величина F-статистики равна квадрату соответствующей t-статистики.
Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (Levene’s test). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применяется F-критерий Фишера:
Если F-статистика превышает критическое значение, то нулевая гипотеза не может быть принята (отвергается) и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть интерпретированы непосредственно после применения критерия Фишера.
При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:
где есть контраст между средними двух групп, и затем при помощи критерия Фишера проверяется соотношение среднего квадрата для каждого контраста к внутригрупповому среднему квадрату:
Апостериорный анализ включает post-hoc t-критерии по методам Бонферрони или Шеффе, а также сравнение разностей средних по методу Тьюки. Особенностью post-hoc-тестов является использование внутригруппового среднего квадрата для оценки любых пар средних. Тесты по методам Бонферрони и Шеффе являются наиболее консервативными, так как они используют наименьшую критическую область при заданном уровне значимости .
Помимо оценки средних дисперсионный анализ включает определение коэффициента детерминации , показывающего, какую долю общей изменчивости объясняет данный фактор:
Многофакторный дисперсионный анализ[править | править код]
- Многофакторный анализ позволяет проверить влияние нескольких факторов на зависимую переменную. Линейная модель многофакторной модели имеет вид:
, где:
- — результат измерения -го параметра;
- — среднее для -го параметра;
- — систематическая ошибка измерения -го параметра в группе по методу ;
- — систематическая ошибка измерения -го параметра в группе по методу ;
- — систематическая ошибка измерения -го параметра в группе в силу комбинации методов и ;
- — случайная ошибка измерения -го параметра.
В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора , сумму квадратов фактора и сумму квадратов взаимодействия факторов и :
Соответственно трёхфакторная модель включает сумму квадратов фактора , сумму квадратов фактора , сумму квадратов фактора и суммы квадратов взаимодействий факторов и , и , и , а также взаимодействия всех трёх факторов :
Степени свободы раскладываются аналогичным образом:
где
и есть объём полной выборки, — количество уровней (групп) фактора , а — количество уровней (групп) фактора .
В ходе анализа проверяются несколько нулевых гипотез:
- гипотеза о равенстве средних под влиянием фактора : ;
- гипотеза о равенстве средних под влиянием фактора : ;
- гипотеза об отсутствии взаимодействия факторов и : для всех и
Каждая гипотеза проверяется с помощью критерия Фишера:
При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора ( и т. д.). При отвержении нулевой гипотезы о взаимодействии факторов принимается утверждение о том, что влияние фактора проявляется по-разному на разных уровнях фактора . Обычно в таком случае результаты общего анализа признаются не имеющими силы, и влияние фактора проверяется отдельно на каждом уровне фактора с помощью однофакторного дисперсионного анализа или t-критерия.
Примечания[править | править код]
- ↑ Дисперсионный анализ . Дата обращения: 15 марта 2011. Архивировано 23 мая 2012 года.
- ↑ Дисперсионный анализ — статья из Большой советской энциклопедии. Большев, Л. Н..
- ↑ А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-X
Литература[править | править код]
- Шеффе Г. Дисперсионный анализ, пер. с англ. — М., 1963.
- Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. — 2 изд.. — М., 1965.