ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА
Тщательное, скрупулезное выполнение эксперимента, несомненно, является главным условием успеха исследования. Это общее правило, и планирование эксперимента не относится к исключениям.
Однако нам не безразлично, как обработать полученные данные. Мы хотим навлечь из них всю информацию и сделать соответствующие выводы. Как всегда, мы находимся между Сциллой и Харибдой. С одной стороны, не извлечь из эксперимента все, что из него следует,– значит пренебречь нелегким трудом экспериментатора. С другой стороны, сделать утверждения, не следующие из эксперимента, – значит создавать иллюзии, заниматься самообманом.
Статистические методы обработки результатов позволяют нам не перейти разумной меры риска.
Начнем с простого случая: один фактор, линейная модель. Интересующая нас функция отклика (которую мы будем также называть уравнением регрессии) имеет вид
Это хорошо известное уравнение прямой линии. Наша цель – вычисление неизвестных коэффициентов b 0и b 1. Мы провели эксперимент, чтобы использовать при вычислениях его результаты. Как это сделать наилучшим образом?
|
|
Если бы все экспериментальные точки лежали строго на прямой линии, то для каждой из них было бы справедливо равенство
,
где i = 1, 2,..., N – номер опыта. Тогда не было бы никакой проблемы. На практике это равенство нарушается и вместо него приходится писать
,
где – разность между экспериментальным и вычисленным по уравнению регрессии значениями y в i-й экспериментальной точке. Эту величину иногда невязкой.
Мы хотим найти такие коэффициенты регрессии, при которых невязки будут минимальны. Это требование можно записать по-разному. В зависимости от этого мы будем получать разные оценки коэффициентов. Вот одна из возможных записей
,
которая приводит к методу наименьших квадратов.
Когда мы ставим эксперимент, то обычно стремимся провести больше (во всяком случае не меньше) опытов, чем число неизвестных коэффициентов. Поэтому система линейных уравнений
оказывается переопределенной и часто противоречивой (т. е. она может иметь бесконечно много решений или может не иметь решений). Переопределенность возникает, когда число уравнений больше числа неизвестных; противоречивость – когда некоторые из уравнений несовместимы друг с другом.
Только если все экспериментальные точки лежат па прямой, то система становится определенной и имеет единственное решение.
МНК обладает тем замечательным свойством, что он делает определенной любую, произвольную систему уравнений. Он делает число уравнений равным числу неизвестных коэффициентов.
|
|
Для определения двух неизвестных коэффициентов требуется два уравнения. Давайте попробуем их получить.
Минимум некоторой функции, если он существует, достигается при одновременном равенстве нулю частных производных по всей неизвестным, т. е.
.
В явном виде это запишется как
,
.
Окончательные формулы для вычисления коэффициентов регрессии, которые удобно находить с помощью определителей, имеют вид
,
.
Величина называется остаточной суммой квадратов ( – значение параметра оптимизации, вычисленное из уравнения регрессии). МНК гарантирует, что эта величина минимально возможная.
Обобщение на многофакторный случай не связано с какими-либо принципиальными трудностями.
Воспользуемся тем, что матрицы планирования ортогональны и нормированы, т.е.
и
Для любого числа факторов коэффициенты будут вычисляться по формуле
В этой формуле j = 0, 1, 2..., k – номер фактора. Ноль записан для вычисления b 0.
Так как каждый фактор (кроме x 0)варьируется на двух уровнях +1 и –1, то вычисления сводятся к приписыванию столбцу y знаков соответствующего фактору столбца и алгебраическому сложению полученных значений. Деление результата на число опытов в матрице планирования дает искомый коэффициент.