Теоретические сведения. 3.1.1 Анализ влияния факторов на исходный параметр

3.1.1 Анализ влияния факторов на исходный параметр

При экспериментальных исследованиях часто изучаются объекты, которые в общем случае могут быть представлены в виде «черного ящика», на вход (входы) которого воздействуют величины, называемые факторами, независимыми переменными, или регрессорами. Целью экспериментальных исследований является получение зависимости между входными величинами и выходной величиной, называемой функцией отклика. Функция отклика является, в общем случае функцией многих переменных и о ней имеются самые общие представления (иногда интуитивные). Конечной целью экспериментального исследования является математическая модель, адекватно описывающая поведение объекта.

Входные переменные, или факторы, могут быть разбиты на два класса: контролируемые (измеряемые) и неконтролируемые (не измеряемые). В свою очередь контролируемые переменные могут быть управляемыми и неуправляемыми. Управляемыми являются такие факторы, которые целенаправленно можно изменять в ходе эксперимента. Факторы, для которых изменение не возможно, называются неуправляемыми.

Если все факторы трактуются как качественные, то применяется дисперсионный анализ, если один из факторов качественный, а другие количественные – то корреляционный анализ.

Другой широко распространенной задачей обработки данных является представление их совокупности некоторой функцией у (х). Задача регрессии заключается в получении параметров этой функции такими, чтобы функция приближала бы облако исходных точек (заданных векторами VX и VY) с наименьшей среднеквадратичной погрешностью.

3.1.2 Статистическая обработка данных с помощью системы MathCad

С помощью системы MК можно проводить наиболее распространенные статистические расчеты с данными, представленными векторами их значений. В MК существуют также встроенные статистические функции скалярного аргумента х:

Ÿ rnd(x) – функция генерации случайных чисел с равномерным распределением;

Ÿ corr(VX, VY) – коэффициент корреляции двух векторов – VX и VY;

Ÿ cvar(X, Y) – коэффициент ковариации X и Y. Через функцию erf(x) легко вычисляется дополнительная функция ошибок crfc(x) = 1 - erf(x).

Следующая группа функций относится к вычислению основных статистических параметров одномерного массива данных вектора:

Ÿ mean(V) – среднее значение;

Ÿ var(V) – дисперсия (вариация);

Ÿ side(V) – среднеквадратичная погрешность (квадратный корень из дисперсии);

Ÿ stdav(V) – стандартное отклонение;

Ÿ hiet(int, V) – вектор частот попадания данных V в заданные интервалы;

Ÿ int – служит для построения гистограмм.

На рисунке 3.1 представлен документ, в котором организована генерация вектора X, который содержит 200 случайных чисел, представлено их распределение и вычислены основные статистические параметры массива случайных чисел – вектора X.

При достаточно большом количестве случайных чисел вид гистограммы приближенно говорит о законе их распределения.

Функции распределения плотности вероятности в МК представлены следующим набором:

Ÿ dbeta(x, s1, s2) – β-распределение (s1, s2 > 0 – параметры формы, 0 < х < 1);

Ÿ dbino(k, n, р) – биномиальное распределение (возвращает значение вероятности Р(х = k), где n и k целые числа, причем 0 < k < n и 0 < р < 1);

Ÿ dcauchy(x, l, s) – распределения Коши (l – параметр разложения, s > 0 – параметр масштаба);

Ÿ dchisq(x, d) – Хи-квадрат-распределение (х, d > 0, причем d – число степеней свободы);

Ÿ dexp(х, r) – экспоненциальное распределение (r, х > 0);

Рисунок 3.1 – Работа со случайными числами

Ÿ df(х, d1, d2) – распределение Фишера (d1, d2 > 0 – числа степеней свободы, х>0);

Ÿ dgama(x, s) – гамма-распределение (s > 0 – параметр формы, х > 0);

Ÿ dgecm(k, р) – геометрическое распределение (0 < р < 1 – вероятность успеха в отдельном испытании, к – целое неотрицательное число);

Ÿ dlnor(x, µ, σ) – логнормальное распределение (µ – натуральный логарифм среднего значения, σ > 0 – натуральный логарифм среднеквадратичного отклонения, х > 0);

Ÿ dlogis(x, l, s) – логистическое распределение (l – параметр разложения, s > 0 – параметр масштаба);

Ÿ dfibino(k, n, р) – отрицательное биномиальное распределение (n > 0 и k > 0 – целые числа, 0 < р < 1);

Ÿ dnorm(x, p, a) – нормальное распределение (р – среднее значение, а > 0 – среднеквадратичное отклонение);

Ÿ dpois(k, x) – распределение Пуассона (к – целое неотрицательное число);

Ÿ dt(x, d) – распределение Стьюдента (d > 0 – число степеней свободы, х – вещественное число);

Ÿ duftif(x, а, b) – равномерное распределение (а и b – граничные точки интервала, причем a < b и а < х < b);

Ÿ dweibuill(x, s) – распределение Вейбулла (s > 0 – параметр формы).

Функции распределения дают вероятность того, что случайная величина будет иметь значения, меньшие или равные определенной величине. Они представлены аналогичным набором функций и отличаются от приведенных тем, что первой буквой имени является буква р, а не d (например, pbeta(x, S1, S2) и т.д.). При экстраполяции используются отрезки прямых, проведенных через две крайние точки.

Следующая группа задает обращения (квантили) функций распределения случайных величин. Имена этих функций отличаются от функций распределения лишь первой буквой. Они начинаются с буквы q – qbeta(р, S1, S2) и т.д. и позволяют по заданной вероятности вычислить такое значение х, при котором вероятность равна или меньше заданного значения р.

Последняя группа статистических функций служит для создания векторов с определенными законами распределения значений их элементов. Их имена так же отличаются от предыдущих двух групп первой буквой. Они начинаются с буквы r. Например, rbeta(n, S1, S2).

3.1.3 Выполнение регрессии разного вида

Чаще всего используется линейная регрессия, при которой функция у (х) имеет вид: у (х) = а + b x и описывает отрезок прямой. К линейной регрессии можно свести многие виды нелинейной регрессии при зависимостях вида у (х). Для проведения линейной регрессии в систему встроен ряд приведенных ниже функций:

Ÿ corr(VX, VY) – возвращает скаляр – коэффициент корреляции Пирсона;

Ÿ intercrpt(VX, VY) – возвращает значение параметра а (смещение линии регрессии по вертикали);

Ÿ s1оре(VX, VY) – возвращает значение параметра b (угловой коэффициент линии регрессии).

Как видно на рисунке 3.2, прямая регрессии проходит в «облаке» исходных точек с максимальным среднеквадратичным приближением к ним. Чем ближе коэффициент корреляции k, тем точнее представленная исходными точками зависимость приближается к линейной.

В MК реализована возможность выполнения линейной регрессии общего вида. При этом заданная совокупность точек приближается функцией вида:

F (x,K₁, K₂,..., K_n) = K₁F₁ (x) + K₂F₂ (x) –... + K_nF_n (x)

Таким образом, функция регрессии является линейной комбинацией функций F₁ (х), F₂ (х),..., F_n (x), причем сами эти функции могут быть нелинейными. Для реализации линейной регрессии общего вида используется функция inf(VX, VY, F). Она возвращает вектор коэффициентов линейной регрессии общего вида К, при котором среднеквадратичная погрешность приближения «облака» исходных точек, координаты которых хранятся в векторах VX и VY, оказывается минимальной. Вектор F должен содержать функции f (х), F(x),..., Fft(x), записанные в символьном виде. Вектор VX должен содержать абсциссы, упорядоченные в порядке их возрастания, а вектор VY – содержать ординаты, соответствующие абсциссам в векторе VX.

Рисунок 3.2 – Пример линейной регрессии

В MК введена и функция для обеспечения полиномиальной регрессии при произвольной степени полинома регрессии: regress(VX, VY, n). Она возвращает вектор VS, запрашиваемый функцией interp(VS, VX, VY, x), содержащий коэффициенты многочлена n-й степени, который наилучшим образом приближает «облако» точек с координатами, хранящимися в векторах VX и VY (рис. 3.4). Для вычисления коэффициентов полинома регрессии используется функция submatrix. На практике не рекомендуется делать степень аппроксимирующего полинома выше 4 - 6, поскольку погрешности реализации регрессии сильно возрастают.

Рисунок 3.3 – Пример линейной регрессии общего вида

Функция regress создает единственный приближающий полином, коэффициенты которого вычисляются по всей совокупности заданных точек. Иногда полезна другая функция полиномиальной регрессии, дающая локальные приближения отрезками полиномов второй степени: loess(VX, VY, span) – возвращает вектор VS, используемый функцией interp(VS, VX, VY) для наилучшего приближения данных VX и VY отрезками полиномов второй степени. Аргумент spar > 0 указывает размер локальной области приближаемых данных (рекомендуемое начальное значение – 0,75). Чем больше span, тем сильнее сказывается сглаживание данных. При больших span эта функция приближается к regress(VX, VY). MathCad с помощью этих функций позволяет выполнять также многомерную регрессию.

Рисунок 3.4 – Полиномиальная регрессия

Под нелинейной регрессией общего вида подразумевается нахождение вектора К параметров произвольной функции F(x, К1, К2, …, Кn), при котором обеспечивается минимальная среднеквадратичная погрешность приближения «обдана» исходных точек. Для проведения нелинейной регрессии общего вида используется функция genflt(VX, VY, VS, F). Она возвращает вектор К параметров функции F, дающий минимальную среднеквадратичную погрешность приближения функцией F(х, К1, К2,..., Кn) исходных данных. F должна быть вектором с символьными элементами, причем они должны содержать аналитические выражения для исходной функции и ее производных по всем параметрам. Вектор VS должен содержать начальные значения элементов вектора К, необходимые для решения системы нелинейных уравнений регрессии итерационным методом.

Пример нахождения коэффициентов дисперсионного анализа приведен на рисунке 3.5.