Основы дисперсионного анализа

В настоящее время дисперсионный анализ определяется как статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов.

Первоначально (1918 г.) дисперсионный анализ был разработан английским математиком-статистиком Р.А. Фишером для обработки результатов агрономических опытов по выявлению условий получения максимального урожая различных сортов сельскохозяйственных культур. Сам термин «дисперсионный анализ» Фишер употребил позднее.

По числу факторов, влияние которых исследуется, различают однофакторный и многофакторный дисперсионный анализ.

В дисперсионном анализе общая вариация изучаемого признака подразделяется на составляющие и проводится сравнение этих составляющих. Проверяемая гипотеза заключается в том, что если данные каждой группы представляют случайную выборку из нормально распределенной генеральной совокупности, то величины всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как оценку генеральной совокупности.

В случае выделения групп по одному фактору мы имеем так называемый однофакторный дисперсионный комплекс. Разложение дисперсии при этом проводится в соответствии с правилом сложения дисперсии:

где - общая сумма квадратов отклонений,

- сумма квадратов отклонений, обусловленная регрессией

(факторная);

- остаточная сумма квадратов отклонений.

На основе разложения дисперсии в соответствии с гипотезой отсутствия различий между группами могут быть получены три оценки генеральной дисперсии, пропорциональные степени свободы: на основе общей вариации, межгрупповой (факторной) и внутригрупповой (остаточной).

Число степеней свободы равно:

· для общей вариации df_общ = n – 1;

· для межгрупповой (факторной) вариации df_факт = m – 1;

· для внутригрупповой (остаточной) вариации df_ост = n – m.

Как и суммы квадратов отклонений, числа степеней свободы связаны между собой равенством: df_общ = df_факт+ df_ост или n – 1=(m – 1)+(n – m).

Деление суммы квадратов отклонений на соответствующее число степеней свободы дает три оценки генеральной дисперсии:

, , .

Поскольку измеряет вариацию результативного признака, связанную с изменением фактора, по которому проведена группировка, а – вариацию, связанную с изменением всех прочих факторов, сравнение этих величин, рассчитанных на одну степень свободы, дает возможность оценить существенность влияния признака-фактора на результативный признак с помощью F -критерия:

Данная запись предполагает, что ≥

Полученное значение F -критерия сравнивается с табличным значением F_табл -критерия. Если F_табл‹ F_факт, то гипотеза Н₀ о равенстве выборочных дисперсий генеральной дисперсии отклоняется, признается существенным, статистически значимым влияние признака-фактора на результативный признак.

F_табл– это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы () и уровне значимости , который принимается равным 0,05 или 0,01.

Если же величина F окажется меньше табличной, то вероятность нулевой гипотезы выше заданного уровня, и она не может быть отклонена без риска сделать неправильный вывод о наличии связи.

Этапы однофакторного дисперсионного анализа представлены в таблице.

Источник вариации	Сумма квадратов отклонений	Число степеней свободы	Дисперсия на одну степень свободы (средний квадрат отклонений)	F -критерий
Общая		n – 1		-
Факторная (между группами)		m – 1
Остаточная (внутри групп)		n – m		-

1 2 3 4 5

Подборка статей по вашей теме: