Некоторые общие положения дисперсионного анализа

Дисперсионный анализ - это метод математической статистики, который широко применяется в различных отраслях науки как самостоятельно, так и в сочетании с другими методами.

Суть дисперсионного анализа заключается в сравнении между собой двух или более дисперсий и доказательстве нуль-гипотезы разности этих дисперсий.

При установлении зависимости j дисперсионным анализом исходят из следующих соображений.

В эксперименте изменения средних арифметических значений свойства объекта (` y v) зависят не только от изменяемых факторов x j (с известными уровнями), но и от случайных факторов. Поэтому рассеивание (разброс)` y v относительно общего среднего арифметического значения (рис. 5), характеризуемое общей дисперсией (), разделяется на составляющие: рассеивание, обусловленное случайными факторами (, , ), и рассеивание, обусловленное известными факторами за счет изменения их значений, т.е. перехода с одного уровня на другие (, и др.). Попарное сравнение всех факторных дисперсий () с дисперсией, характеризующей действие случайных факторов, т.е. воспроизводимость эксперимента (), позволяет на основании закона распределения Фишера сделать следующие основные выводы дисперсионного анализа:

Установить или опровергнуть влияние x j на y с заданной вероятностью ("влияет", "не влияет" и др.).

Определить вероятность влияния x j на y.

Рис. 5. Поле корреляции величин y и x

Так, например, после проведения эксперимента и математической обработки результатов измерений можно вычислить F-отношение (Fp):

; ; .

Задав вероятность (Р) и вычислив по известным формулам числа степеней свободы для факторной дисперсии fфакт. (f1) и дисперсии воспроизводимости fвоспр. (f2), из справочных данных выбираем табличное значение квантиля распределения Фишера (Fт). При выполнении неравенства FP> Fт можно делать вывод, что данный фактор х с вероятностью Р влияет на свойство y, т.е. "значима" разность между влиянием на свойство y известного фактора х и случайных факторов. При невыполнении этого неравенства делается вывод об отсутствии влияния фактора х на свойство y, т.е. это влияние соизмеримо со случайными ошибками эксперимента.

Дисперсионный анализ по сравнению с корреляционным анализом имеет существенные преимущества:

1. Позволяет делать однозначные и более точные выводы о влиянии фактора x j на свойство y.

2. Позволяет определить влияние на свойство y не только количественных, но и качественных факторов (например, типа растворителя, времени года и др.).

3. Позволяет оценить значение (уровень) фактора x j, при котором он начинает влиять с заданной вероятностью на свойство y.

Планирование эксперимента для проведения дисперсионного анализа зависит от числа известных факторов, одновременно изменяемых в эксперименте. Различают планы экспериментов для проведения одно-, двух- и многофакторного (трех- и более) дисперсионного анализа.

5.2.2. Составление планов эксперимента для проведения дисперсионного анализа

Общим требованием к планированию любого эксперимента для проведения дисперсионного анализа является выполнение условия
mj > 1. Желательно, чтобы план эксперимента для проведения дисперсионного анализа предусматривал:

1) широкую область изменения значений факторов x j,

2) большое число mj значений (уровней) факторов x j, при этом разница между уровнями должна быть больше абсолютной погрешности их измерения.

Остальные требования к составлению плана эксперимента зависят от числа исследуемых факторов и выбранного числа опытов.

5.2.2.1. Составление планов экспериментов для проведения однофакторного дисперсионного анализа

Введем следующие обозначения:

А - исследуемый фактор;
m - максимальное число разных уровней фактора А;
v - номер уровня фактора А;
аv - конкретное значение (качественное или количественное) уровня фактора А (v = 1…m);
n - максимальное число повторений каждого опыта при одном значении фактора А;
i - номер повторного опыта при одном значении фактора А;
N - общее число опытов при эксперименте.

Тогда при одинаковом числе повторений опытов для каждого уровня фактора А:

N = mn.

Классической формой плана для проведения однофакторного дисперсионного анализа является таблица (табл. 8). Условные обозначения уровней фактора часто называют "кодированными" значениями фактора, а реальные значения (качественные или количественные) - натуральными значениями.

Таблица 8

План эксперимента для проведения однофакторного дисперсионного анализа с кодированными значениями уровней фактора А

Номер Значения y при уровне фактора А
повтор­ного опыта a1 a2 ... az ... am-1 am
               
               
...              
i              
...              
n-1              
n              

Очевидно, что число пустых клеточек в табл. 8 соответствует общему числу опытов в эксперименте (N). В эти клеточки после проведения соответствующего опыта заносят измеренное значение свойства объекта y.

5.2.2.2. Составление планов экспериментов для проведения двухфакторного дисперсионного анализа

Двухфакторный дисперсионный анализ предусматривает возможность проведения экспериментов без повторения опытов. Если обозначить второй фактор В, максимальное число его уровней w и номер уровня q, то общее число опытов в плане эксперимента без повторения опытов будет равно:

N = mw.

Классический план такого эксперимента (табл. 9) является планом полного факторного эксперимента ( ПФЭ), так как в нем предусмотрены опыты со всеми возможными сочетаниями различных уровней всех факторов.

Более понятным для выполнения является развернутый план эксперимента. Развернутый план получают из классического плана, присвоив в случайном порядке (принцип рандомизации) номера опытов каждой пустой ячейке табл. 9. Условия проведения каждого опыта (табл. 10) определяются исходя из того, какие столбец и строка (уровни фактора А и В) совмещаются в ячейке с данным номером опыта.

Таблица 9
План эксперимента для проведения двухфакторного дисперсионного

анализа с кодированными значениями уровней факторов

Уро­вень Значения y при уровне фактора А
факто­ра В a1 a2 ... az ... am-1 am
b1 № 8 № 3 ... №1 ... ... ...
b2 ... №5 ... ... ... ... № 7
... ... ... ... ... ... ... ...
bq № 4 ... ... ... ... ... ...
... ... ... ... ... ... ... ...
bw-1 № 2 № mw ... ... ... ... ...
bw ... № 6 ... ... ... ... ...

Таблица 10

Развернутый план эксперимента для проведения двухфакторного

дисперсионного анализа с кодированными значениями уровней факторов

Номер опыта Кодированные значения уровня фактора Значение y
  А В  
  az b1  
  a1 bw-1  
  a2 b1  
  a1 bq  
  a2 b2  
  a2 bw  
  am b2  
  a1 b1  
... ... ...  
mw a2 bw-1  

Если в плане эксперимента предусмотреть повторение каждого опыта, то тогда при проведении дисперсионного анализа результатов измерений y можно оценить влияние на данное свойство объекта эффекта одновременного изменения двух факторов (эффектов " взаимодействия " факторов). Эффекты взаимодействия могут иметь синергетический (взаимоусили­вающий) или антагонистический (взаимоослабляющий) характер влияния одновременного изменения факторов x j на свойство y.

5.2.2.3. Составление планов экспериментов для проведения
многофакторного дисперсионного анализа

При многофакторном эксперименте одновременно изменяются три и более факторов. Общее число опытов (без их повторений) для ПФЭ с k изменяемыми факторами (если каждый из них имеет одно и то же максимальное число уровней m) будет равно:

NПФЭ= mk.

Очевидно, что с увеличением числа исследуемых факторов (k) общее число опытов в эксперименте будет резко возрастать. Поэтому при многофакторных экспериментах часто применяют планы дробных факторных экспериментов (ДФЭ), которые предусматривают выполнение опытов только с частью всех возможных сочетаний различных уровней всех факторов. Долю общего числа опытов ДФЭ (NДФЭ) от NПФЭ называют степенью дробности ДФЭ.

Необходимо помнить, что сокращение числа опытов в эксперименте, т.е. переход от ПФЭ к ДФЭ, всегда приводит к снижению точности дисперсионного анализа результатов эксперимента.

Существуют различные принципы составления и типы планов ДФЭ: составление планов по принципу дробных реплик, латинских квадратов и кубов, планы Плакетта-Бермана и др. Эти планы относятся к планам математического планирования эксперимента, так как при их построении сочетание уровней факторов в опытах (выбор части опытов из планов ПФЭ) происходит не произвольно, а по определенным принципам математической комбинаторики.

Планы ДФЭ широко применяются при отсеивающих экспериментах, т.е. тогда, когда необходимо изучить достаточно большое число факторов при небольшом числе опытов и определить те факторы, которые оказывают наиболее сильное влияние на свойство y. Одними из самых экономичных по числу опытов и эффективных для дисперсионного анализа из известных планов ДФЭ являются планы Плакетта-Бермана.

В качестве примера приведу порядок выбора и составления плана 10-факторного эксперимента (k =10). С целью экономии числа опытов в эксперименте возьмем наименьшее число уровней всех факторов (mj = m = 2) и откажемся от проведения повторных опытов (nz,j = n = 1). Тогда для проведения ПФЭ необходимо будет выполнить следующее число опытов:

NПФЭ = mk = 210 = 1024.

Из известных 2-уровневых планов ДФЭ оценим число опытов для планов по принципу дробных реплик ПФЭ (ДР) и планов
Пла­кетта-Бермана (ПБ):

NДР = 2k-a = 210-a, где а равно 1, 2, 3,...,10 и соответственно NДР равно 512, 256, 128, 64, 32, 16, 8, 4, 2, 1;

NПБ = 4b, где b равно 1, 2, 3,..., ¥ и соответственно NПБ равно 4, 8, 12,... ¥.

Из таких 2-уровневых планов можно выбирать только те, для которых выполняется соотношение:

N ³ k+1 ³ 10+1 ³ 11.

Требованиям этого соотношения и минимального числа опытов лучше всех удовлетворяет план Плакетта-Бермана с NПБ = 12. Построим такой план с кодированными факторами, обозначая знаком "+" одно из двух натуральных значений каждого из факторов, а знаком "-" другое значение. Например, примем следующие обозначения (табл. 11).

Таблица 11

Значения факторов

Фактор Значения факторов
  натуральные (Хj) и их размерность кодированные (xj)
Время реакции 130 мин +
  100 мин -
Тип катализатора Катализатор № 3 +
  Без катализатора -
... ... ...
Температура реакции 90ОС +
  60ОС -

Тогда план эксперимента типа NПБ = 12 (план Плакетта-Бермана) будет следующим (табл. 12).

При построении данного плана в ячейки последнего опыта с
N = k+1(№ 12) заносится кодированное значение (-) для всех факторов. Затем во втором столбце плана (для х 1) по рекомендациям литературы [8,9] или по случайному принципу в ячейках располагается 6 (k/2) знаков (+) и 5 (k/2-1) знаков (-). Ячейки последующего столбца получаются из предыдущего. Первая ячейка последующего столбца является предпоследней ячейкой предыдущего столбца, а остальные первые k-2 ячейки предыдущего столбца переносятся под первую ячейку последующего столбца (со сдвигом по диагонали плана слева-направо-вниз).

Таблица 12

План эксперимента типа NПБ = 12

Но- Кодированные значения факторов y
мер x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12  
опы-                     (*) (*)  
та n                          
  + - + - - - + + + - + +  
  + + - + - - - + + + - +  
  - + + - + - - - + + + -  
  + - + + - + - - - + + +  
  + + - + + - + - - - + +  
  + + + - + + - + - - - +  
  - + + + - + + - + - - -  
  - - + + + - + + - + - -  
  - - - + + + - + + - + -  
  + - - - + + + - + + - +  
  - + - - - + + + - + + -  
  - - - - - - - - - - - -  
* Фиктивные факторы, используемые для расчета случайных ошибок эксперимента.

Правильность построения плана Плакетта-Бермана определяется двумя признаками:

1. Диагональным расположением одинаковых знаков в ячейках плана.

2. Равенством количества знаков (+) и (-) в каждом столбце плана.

План с натуральными значениями факторов получается из плана с кодированными значениями путем замены знаков (+) и (-) на соответствующие им натуральные значения для каждого фактора.

Примеры составления других планов многофакторного ДФЭ для проведения дисперсионного анализа и алгоритмы математической обработки результатов эксперимента изучите самостоятельно [8].

Проведение дисперсионного анализа можно легко осуществить с помощью ПЭВМ с использованием различных общепризнанных статистических программных продуктов: STATGRAPHICS, STADIA [7], STATISTICA и др.

5.2.3. Пример составления плана эксперимента и проведения однофакторного дисперсионного анализа

С целью определения влияния типа катализатора (х) на выход нитробензола (y) при его синтезе из бензола был спланирован и проведен однофакторный (k = 1) четырехуровневый (m = 4) эксперимент с двукратным повторением каждого опыта (n = 2) и получены следующие единичные результаты измерений (табл. 13).

Таблица 13

План и результаты однофакторного эксперимента

Номер повторного Выход нитробензола (y), мас. %, при использовании катализатора (хv)
опыта i х1 (без катализатора) х2 (катализа­тор № 1) х3 (катализа­тор № 2) х4 (катали­за­тор № 3)
         
         

Наличие повторений опытов при эксперименте позволяет применить для обработки его результатов метод однофакторного дисперсионного анализа.

Расчеты однофакторного дисперсионного анализа полученных результатов эксперимента были выполнены на ПЭВМ с помощью пакета прикладных программ "STATISTICA", и их итоги представлены в
табл. 14.

Таблица 14

Итоги расчетов однофакторного дисперсионного анализа

Источник дисперсии Сумма квадратов Число степе­ней свобо­ды Средний квадрат Fp Уровень значимо­сти
Фактор х 1750,000   583,3333 38,88889 0,002037
Случайные факторы 60,000   15,0000 - -

Данные табл. 14 показывают, что тип катализатора влияет на выход нитробензола с вероятностью более 0,997 (Р = 1- a = 1-0,002037 = 0,099763).

Применим метод попарного сравнения средних арифметических результатов измерений для определения уровня фактора х, при котором влияние на свойство y превышает ошибки эксперимента.

Алгоритм расчетов зависит от соблюдения равенства выборочных дисперсий единичных значений ( и ).

Первоначально сравним выход нитробензола при реакции без катализатора (v =1) и с катализатором № 2 (v = 3). Выполним расчеты соответствующих параметров:

мас. %; мас. %;

(мас. %)2;

(мас. %)2.

Проверим равенство (однородность) выборочных дисперсий единичных значений:

;

Fт (Р = 0,95; f1 = f2 = n-1 = 2-1 =1) = 164,4;

Fp > Fт (¥ > 164,4).

Таким образом, с вероятностью 0,95 сравниваемые дисперсии и не однородны, т.е. не равны (различия между ними "значимы"). Так как одна из дисперсий равна нулю, то воспользуемся T-критерием [8]:

; ; ;

(мас. %)2; (мас. %)2;

tт (Р = 0,95; f = n-1 = 2-1 =1) = 12,71;

мас. %;

< T.

Таким образом, исходя из полученного неравенства с вероятностью 0,95 следует считать, что катализатор № 2 не влияет на выход нитробензола при его синтезе.

Сравнение других пар средних арифметических значений показало, что с вероятностью 0,95 можно утверждать об увеличении выхода нитробензола при введении в реакцию его синтеза и катализатора № 3. Катализатор № 3 имеет более высокую эффективность действия в исследованной реакции по сравнению с катализатором № 2.

Следует иметь в виду, что применение дисперсионного анализа дает более точные выводы, если величины y и x j имеют нормальное распределение. В противном случае для качественной оценки зависимости j лучше использовать непараметрические методы факторного анализа.

5.3. Планирование эксперимента для применения регрессионного
анализа


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: