Методы дисперсионного анализа позволяют формировать единую базу данных объектов-аналогов и оценивать величину влияния конкретных факторных признаков на исследуемый результативный признак.
Основная идея однофакторного дисперсионного анализа заключается в сравнении дисперсии исследуемого признака, вызванной действием фактора, с дисперсией ошибок измерения этого признака. Если различие между ними значимо, то фактор оказывает существенное влияние на исследуемый признак.
Для сравнения влияния факторных признаков на результативный признак необходим определенный статистический материал – каждому уровню фактора должна соответствовать определенная выборка значений результативного признака. Статистический материал удобно представлять в виде таблицы 2.1.
Общее число наблюдений .
Прежде чем судить о количественном влиянии фактора, необходимо установить наличие такого влияния. Возможно, расхождение значений результативного признака для различных уровней фактора объясняется действием чистой случайности.
|
|
Т а б л и ц а 2.1
Матрица экспериментов для однофакторного анализа
Уровни фактора | Номер выборки | |||
… | ||||
Значения результативного признака | … | … | … | |
Объем выборки |
На статистическом языке это предположение означает проверку однородности всех выборок таблицы 2.1, т.е. проверку принадлежности всех значений результативного признака одной генеральной совокупности. Основной процедурой дисперсионного анализа является проверка этой гипотезы с помощью статистических критериев.
Пусть фактор имеет различных уровней, на каждом из которых выполнено наблюдений. Следовательно, наблюдалось значений признака (свойства) , где - номер наблюдения (), - номер уровня фактора ().
Чем существеннее влияние фактора на признак , тем сильней будут различаться между собой средние значения групп наблюдений на разных уровнях фактора .
Существуют понятия:
· общая сумма квадратов - сумма квадратов отклонений всех возможных значений признака от их общего среднего значения
; (2.1)
· сумма квадратов между группами или по факторам - взвешенная сумма квадратов отклонений средних значений по группам от общего среднего значения
; (2.2)
· сумма квадратов внутри групп - сумма квадратов отклонений возможных значений признака каждой группы (уровня фактора) от среднего значения этой группы
, (2.3)
где - соответственно среднее значение группы и общее среднее значение результативного признака, определяемые по формулам
. (2.4)
Для оценки влияния фактора следует разложить общую сумму квадратов на составляющие: сумму квадратов между группами (по факторам) и сумму квадратов внутри групп. Следовательно,
|
|
. (2.5)
Сумма отражает влияние на результативный признак уровней фактора, а сумма - влияние погрешностей измерений. Так как , то сумму называют еще остаточной суммой квадратов.
Суммы квадратов , , , деленные на соответствующие числа степеней свободы, дают три несмещенные оценки дисперсии генеральной совокупности:
; (2.6)
(2.7)
(2.8)
Первая оценка называется общей оценкой дисперсии (или выборочной дисперсией), вторая – оценкой дисперсии по факторам (оценкой дисперсии между группами или факторной дисперсией) и третья – остаточной оценкой дисперсии (оценкой дисперсии внутри групп или остаточной дисперсией).
Число степеней свободы представляет собой число независимых отклонений значений признака от его среднего значения. Сумма имеет = степень свободы, так как из отклонений групповых средних от общей средней независимых будет (), а последнее отклонение выражается через все предыдущие. Сумма имеет = ()=() степеней свободы, так как вычисляется по отклонениям наблюдений от средних. Число степеней свободы проверяется путем сложения тем же способом, что и сумма квадратов (3.5), т.е. = .
Если факторная дисперсия окажется меньше остаточной , то фактор оказывает несущественное влияние на признак .
Проверка значимости оценок дисперсии выполняется с помощью – критерия Фишера, расчетное значение которого определяется дисперсионным отношением
= / при > . (2.9)
Если расчетное значение критерия окажется меньше критического, то нет оснований считать, что рассматриваемый фактор влияет на изменчивость средних значений случайной величины. Если , то на принятом уровне значимости делается вывод о существенном влиянии фактора на признак .
После того как выполнена оценка влияния фактора на изменчивость средних значений случайной величины в целом и установлено, что фактор влияет на изменчивость средних значений, то переходят к подробному исследованию отдельных уровней фактора. Для этого проводится оценка расхождения средних значений, полученных при наблюдениях по отдельным уровням фактора.
Для сравнения двух выборочных средних используют - статистику. Вычисляют общую дисперсию двух выборок и расчетное значение - статистики по формулам:
(2.10)
. (2.11)
Критическое значение - статистики определяется с помощью статистической функции СТЬЮДРАСПОБР. Число степеней свободы . Гипотеза о равенстве выборочных средних подтверждается, если . Если , то уровень фактора с большим средним значением оказывает существенное влияние на исследуемый признак.
Пример 2.1 [5].Две группы дилеров продают автомобили, которые рекламируются соответственно рекламами и . Третья группа дилеров работает без рекламы. В каждой группе задействовано по 4 дилера. Таким образом, =3, =4. В таблице 2.2 приведено количество автомобилей, которые проданы различными группами дилеров.
Требуется определить влияние двух видов рекламы на объем продаж автомобилей.
Т а б л и ц а 2.2
Сводка исходных данных
Дилер | Реклама А | Реклама В | Рекламы нет |
Для пояснения методики однофакторного дисперсионного анализа выполнен контрольный расчет.