Дисперсионный анализ

Ранее нами были рассмотрены процедуры для оценки значимости различий между средними значениями двух выборок. Однако часто необходимо сравнивать средние значения трёх и более числа выборок. В случае, когда необходимо сравнить средние значения большого числа выборок, используется метод дисперсионного анализа (ANOVA – Analysis of Variance), который устанавливает влияние отдельных факторов на изменчивость какого – либо признака, значения которого могут быть получены опытным путем в виде случайной величины Y. Величину Y называют результативным признаком, а конкретную реализацию фактора A – уровнем (группой) фактора A или способом обработки и обозначают через A(i).

В зависимости от числа факторов, различают однофакторный и многофакторный дисперсионный анализ.

Задачу однофакторного дисперсионного анализа можно продемонстрировать на следующем примере. Необходимо определить существует ли разница между прочностью парашютов, сотканных из синтетических волокон разных поставщиков. Результаты эксперимента (сила разрыва) приведены в таблице

  Поставщик 1 Поставщик 2 Поставщик 3 Поставщик 4
  18,5 26,3 20,6 25,4
  24,0 25,3 25,2 19,9
  17,2 24,0 20,8 22,6
  19,9 21,2 24,7 17,5
  18,0 24,5 22,9 20,4
среднее 19,5 24,26 22,84 21,16
ст.откл 2,690167281 1,919114379 2,133776 2,98379

Обозначим А(1)(2),…,А(с) -уровни фактора А.

Пусть m1, m2,…, mс –математические ожидания результативного признака Υ при соответствующих уровнях А.

Если при изменении уровня фактора групповые математические ожидания не изменяются, т.е. выполняется условие равенства мат.ожиданий: H0: m1=m2=…=mсто считается, что результативный признак не зависит от фактора А. В противном случае такая зависимость имеется (H1: не все мат.ожидания равны).

Поскольку мат.ожидания не известны, необходимо подтвердить гипотезу об их равенстве на основе выборочных данных.

Н0: m1 = m2=…= mс

Эту гипотезу можно подтвердить с помощью F – критерия Фишера, если выполняются следующие условия:

1. наблюдения независимы и проводятся в одинаковых условиях.

2. результативный признак имеет нормальный закон распределения

3. с постоянной для различных условий генеральной дисперсией .

Если гипотеза принимается, то можно приступать непосредственно к процедуре дисперсионного анализа, т.е. к проверке гипотезы о равенстве средних величин: Н0: m1 = m2=…= mс

Проверить эту гипотезу можно, изучая вариации отдельных значений признака. Общая изменчивость значений признака может быть вызвана как изменчивостью значений признака между различными группами (межгрупповая вариация), так и изменчивостью значений признака внутри группы (внутригрупповая вариация). Для измерения степени вариации используется показатель – сумма квадратов отклонений.

Общая вариация определяется полной суммой квадратов отклонений.

где - общее среднее.

.

- среднее значение в j –ой группе

Сумма квадратов отклонения (межгрупповая вариация), вызванная влиянием фактора A на X определяется по формуле

,

Внутригрупповая вариация определяется равенством

В общем случае выполняется равенство , т.е. полная вариация значений признаков определяется суммой межгрупповой и внутригрупповой вариации.

Для проверки гипотезы о равенстве средних величин используется F-критерий Фишера, который определяется отношением.

F-критерий подчиняется распределению Фишера с числом степеней свободы

, где n –общее число наблюдений, m - число уровней фактора A.

Показатель MS определяется как сумма квадратов отклонения, приходящаяся на одну степень свободы.

,

,

где SSA – сумма квадратов отклонения, вызванная влиянием фактора A на X, а SSвн - сумма квадратов отклонения, вызванная влиянием остаточных факторов на X.

Для проверки гипотезы определяется правосторонняя критическая область, т.е. вычисляется Fкр при уровне значимости и проверяется попадание рассчитанного значения F – статистики в интервал (Fкр;+∞). Если попадает, то гипотеза отклоняется, в противном случае принимается.

Для проведения однофакторного дисперсионного анализа есть инструмент в пакете анализа Excel, который так и называется «Однофакторный дисперсионный анализ».

Здесь задаются следующие параметры:

1. входной интервал (вводится вся таблица с исходными данными);

2. вид группирования (по столбцам/ по строкам);

3. метки;

4. поле ;

указать выходной интервал.

Однофакторный дисперсионный анализ      
             
ИТОГО            
Группы Счет Сумма Среднее Дисперсия    
Поставщик 1   97,6 19,52 7,237    
Поставщик 2   121,3 24,26 3,683    
Поставщик 3   114,2 22,84 4,553    
Поставщик 4   105,8 21,16 8,903    
             
             
ДИСПЕРСИОННЫЙ АНАЛИЗ          
Источник вариации SS df MS F P-значение F крит.
Между группами 63,2855   21,09516667 3,461628925 0,0413656 3,238866952
Внутри групп 97,504   6,094      
             
Итого 160,7895          

Степень влияния данного фактора можно измерить с помощью выборочного коэффициента детерминации ρ: . выборочное значение рассчитывается по формуле

,

Коэффициент детерминации показывает, какая доля выборочной дисперсии объясняется зависимостью результативного признака Υ от факторного признака А.

Множественное сравнение: процедура Тьюки – Крамера

Позволяет определить какие именно группы отличаются друг от друга.

1) Вычисляются разности , где i ≠ j, между мат.ожиданиями c(c – 1) групп;

2) Критический размах процедуры Тьюки – Крамера вычисляется по формуле

где Qu –верхнее критическое значение распределения стьюдентизированного размаха, имеющего c степеней свободы в числителе и (n – c) степеней свободы в знаменателе.

3) Каждая из c(c – 1)/2 пар разностей математических ожиданий сравнивается с рассчитанным критическим размахом. Элементы пары считаются значительно различными, если модуль разности между ними превышает критический размах.

Other Data
Level of significance 0,05
Numerator d.f.  
Denominator d.f.  
MSW 6,094
Q Statistic 4,05
  Absolute Std. Error Critical      
Comparison Difference of Difference Range Results    
4,74 1,10399275 4,4712 Means are different
3,32 1,10399275 4,4712 Means are not different
1,64 1,10399275 4,4712 Means are not different
1,42 1,10399275 4,4712 Means are not different
3,1 1,10399275 4,4712 Means are not different
1,68 1,10399275 4,4712 Means are not different

Прежде чем использовать F – критерий Фишера необходимо установить на основе имеющихся выборочных данных, являются ли генеральные дисперсии результативного признака при различных условиях фактора одинаковыми или нет.

Проверка равенства дисперсий: Нулевая гипотеза формулируется следующим образом Н0: = =…== против гипотезы Н1: не все дисперсии одинаковы.

Для проверки равенства трёх или более дисперсий используется критерий Бартлетта w.

,

где q вычисляется по формуле:

где

с –число уровней фактора А;

n1, …,nj, …, nс -число наблюдений для 1,…, j,…, с -ого уровня фактора А.

- внутригрупповая дисперсия, соответствующая j-ому уровню фактора А.

- среднее арифметическое значение результирующего показателя (признака) при j-ом уровне фактора А.

,

При выполнении гипотезы о равенстве дисперсии Н0: = =…= критерий имеет распределение χ2 (хи – квадрат) с числом степеней свободы .

Для проверки гипотезы при заданном уровне значимости находится правосторонняя критическая точка wкр., которая определяет область отклонения - интервал (wкр;+∞). Если рассчитанное значение w попадает в эту область, то мы отклоняем гипотезу при уровне значимости . В противном случае гипотеза принимается.

Модифицированный критерий Левенэ.

Вычисляются абсолютные величины разностей между наблюдениями и медианами в каждой группе

  Поставщик 1 Поставщик 2 Поставщик 3 Поставщик 4
  18,5 26,3 20,6 25,4
  24,0 25,3 25,2 19,9
  17,2 24,0 20,8 22,6
  19,9 21,2 24,7 17,5
  18,0 24,5 22,9 20,4
среднее 19,5 24,26 22,84 21,16
ст.откл 2,690167281 1,919114379 2,133776 2,98379
Поставщик 1 Поставщик 2 Поставщик 3 Поставщик 4
0,0 1,8 2,3 5,0
5,5 0,8 2,3 0,5
1,3 0,5 2,1 2,2
1,4 3,3 1,8 2,9
0,5 0,0 0,0 0,0

Выполняется однофакторный дисперсионный анализ полученных значений абсолютных разностей

Однофакторный дисперсионный анализ        
             
ИТОГИ            
Группы Счет Сумма Среднее Дисперсия    
Столбец 1   8,7 1,74 4,753    
Столбец 2   6,4 1,28 1,707    
Столбец 3   8,5 1,7 0,945    
Столбец 4   10,6 2,12 4,007    
             
             
Дисперсионный анализ          
Источник вариации SS df MS F P-Значение F критическое
Между группами 1,77   0,59 0,20679986 0,890188801 3,238866952
Внутри групп 45,648   2,853      
             
Итого 47,418          

Поскольку F = 0,207 < 3,2388, нулевая гипотеза о равенстве дисперсий не отклоняется. Между дисперсиями внутри каждой группы существенной разницы нет.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: