Регрессионный анализ трехмерной модели

Для исследования статистической зависимости одного результирующего признака от двух и более факторных признаков в Excel есть две возможности: инструмент Регрессия для случая линейной статистической зависимости и непосредственное применение метода наименьших квадратов в случае зависимости любого вида.

Алгоритм применения инструмента Регрессия отличается от описанного выше для случая двумерной модели только количеством исходных данных, размещаемых на рабочем листе и соответственно диапазоном входных параметров, вводимом в диалоговом окне Регрессия. Выходные данные также отличаются только количеством информации при сохранении их смысла.

Регрессионная статистика

Множественный R

0,762322

R-квадрат

0,581135

Нормированный R-квадрат

0,563682

Стандартная ошибка

50,23613

Наблюдения

Дисперсионный анализ

Значимость F

Регрессия

168064,8

84032,39

33,2977

8,51E-10

Остаток

121136,1

2523,668

Итого

289200,9

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

225,7848

27,41026

8,237239

9,67E-11

170,6728

280,8968

23,38168

10,96783

2,131842

0,038166

1,329382

45,43398

-503,93

69,72031

-7,22788

3,29E-09

-644,112

-363,748

Рис.8. Регрессия Y2 на X4,X8.

На рис.8 приведены результаты применения инструмента Регрессия к статистическим данным по признакам X4–X8–Y2.

Оценка линейной функции регрессии y₂ на x₄,x₈ имеет вид:

Значение F–критерия F_расч=33,2977, что значительно больше F_кр = 3,18 Это означает, что оценка достаточно хорошо согласуется с данными наблюдений. Это подтверждается и достаточно высоким значением коэффициента детерминации R² = 0,5811351. Расчетные значения t –статистики для свободного члена и коэффициента при x₄ больше t_кр = 2,009, что подтверждает их значимость. Для коэффициента при x₈ t_расч близко к критическому значению, что ставит под сомнение его значимость.

P(x)

ε²

P₂(x)

ε²₂

0,42

0,66

13,6

=A$56+B$56*A2+C$56*

=C2-D2

=E2^2

=A$59+B$59*A2+C$59*B2+D$59*A2^2+E$59*B2^2+F$59*A2*B2

=(C2-H2)^2

0,51

1,23

=A$56+B$56*A3+C$56*

=C3-D3

=E3^2

=A$59+B$59*A3+C$59*B3+D$59*A3^2+E$59*B3^2+F$59*A3*B3

=(C3-H3)^2

0,38

1,04

18,1

=A$56+B$56*A4+C$56*

=C4-D4

=E4^2

=A$59+B$59*A4+C$59*B4+D$59*A4^2+E$59*B4^2+F$59*A4*B4

=(C4-H4)^2

0,51

0,24

21,9

=A$56+B$56*A5+C$56*

=C5-D5

=E5^2

=A$59+B$59*A5+C$59*B5+D$59*A5^2+E$59*B5^2+F$59*A5*B5

=(C5-H5)^2

0,43

2,13

26,8

=A$56+B$56*A6+C$56*

=C6-D6

=E6^2

=A$59+B$59*A6+C$59*B6+D$59*A6^2+E$59*B6^2+F$59*A6*B6

=(C6-H6)^2

0,43

0,84

30,1

=A$56+B$56*A7+C$56*

=C7-D7

=E7^2

=A$59+B$59*A7+C$59*B7+D$59*A7^2+E$59*B7^2+F$59*A7*B7

=(C7-H7)^2

0,34

0,68

32,3

=A$56+B$56*A8+C$56*

=C8-D8

=E8^2

=A$59+B$59*A8+C$59*B8+D$59*A8^2+E$59*B8^2+F$59*A8*B8

=(C8-H8)^2

0,18

1,06

34,2

=A$56+B$56*A9+C$56*

=C9-D9

=E9^2

=A$59+B$59*A9+C$59*B9+D$59*A9^2+E$59*B9^2+F$59*A9*B9

=(C9-H9)^2

Рис.9. Размещение информации для МНК.

В случае нелинейной регрессии специального инструмента в Excel нет, необходимо выполнять действия, предусмотренные методом наименьших квадратов(МНК), используя вычислительные возможности Excel. Расположение исходных данных и формул в таблице Excel приведено на рис.9.

Все формулы вводятся только в верхнюю строку, а затем копируются по всему столбцу. На рис.9 приведены расчеты поиска оценок линейной P(x) и квадратичной P₂ (x) функции регрессии. Параметры функции регрессии β_j расположены в ячейках A56 ч C56 для линейной зависимости и в ячейках A59 ч F59 для квадратичной зависимости (см. рис.10). Ячейки F53 и I53 содержат значения функций Q – суммы квадратов отклонений.

	A	B	C	D	E	F	H	I
50	0,02	1,14	264,8	=A$56+ B$56A50+ C$56B50	=C50-D50	=E50^2	=A$59+B$59A50+ C$59B50+D$59A50^2+E$59B50^2+F$59A50B50	=(C50-H50)^2
51	0,16	4,44	267,3	=A$56+ B$56A51+ C$56B51	=C51-D51	=E51^2	=A$59+B$59A51+ C$59B51+D$59A51^2+E$59B51^2+F$59A51B51	=(C51-H51)^2
52	0,01	1,27	355,6	=A$56+ B$56A52+ C$56B52	=C52-D52	=E52^2	=A$59+B$59A52+ C$59B52+D$59A52^2+E$59B52^2+F$59A52B52	=(C52-H52)^2
53					Q =	=СУММ(F2: F52)	Q₂=	=СУММ(I2: I52)
54					σ =	=КОРЕНЬ(F53/51)	σ₂ =	=КОРЕНЬ(I53/51)
55	β₀	β₁	β₂
56	225,78481426	-503, 9302	23,381653963
57
58	β₀	β1	β2	β3	β4	β5
59	247,96413983	-930, 357130	73,537978008	1009,39006400157	-4,446 88827	-140,188 41146628

Рис.10. Размещение информации для Поиска решения.

Значения β_j находятся с помощью надстройки Excel Поиск решения по такому алгоритму:

– установить курсор на ячейке, содержащей значение функции Q (Q₂);

– Сервис – Поиск решения;

– в появившемся диалоговом окне Поиск решения (рис.11) проверить, стоит ли в поле Установить целевую ячейку адрес функции Q (Q₂), и если нет, то ввести его;

– в поле Равной щелкнуть пункт минимальному значению;

– в поле Изменяя ячейки ввести диапазон ячеек, которые отведены для значений искомых параметров ;

– щелкнуть по кнопке Выполнить;

– если решение найдено, сообщение об этом появится в диалоговом окне, где нужно щелкнуть по пункту Сохранить найденное решение. Значения найдены и находятся в отведенных для них ячейках (рис.10).

– Значение суммы квадратов отклонений найденной оценки функции регрессии от наблюденных значений результирующего признака, т.е. функции Q для линейной регрессии и функции Q₂ для квадратичной регрессии, находятся в ячейках F53 и I53, линейная величина отклонений – в ячейке F54 и в ячейке I54.

Рис.11. Ввод информации для Поиска решения.

Таким образом, коэффициенты линейной функции регрессии P(x) следует считывать из ячеек A56,B56 и С56; коэффициенты нелинейной функции регрессии P₂(x) – из ячеек A59 F59. Для рассматриваемого примера линейная функция регрессии совпадает с полученной с помощью инструмента Регрессия, а квадратичная

P₂(x) = 247,9641 – 930,3571x₄ + 73,538x₈ + 1009,39x₄² – 4,44689x₈² – 140,1884x₄x₈

Проверка значимости полученной квадратичной оценки уравнения регрессии выполним так. Определим коэффициент корреляции значений эмпирической функции регрессии и выборочного среднего RyP₂(x). Как видно из рис.12, коэффициент корреляции достаточно большой (0,80921). Выполним еще одну проверку значимости P₂(x) с помощью коэффициента детерминации, для чего необходимо вычислить значения S_ост, S_факт.

Размещение нужных формул приведено на рис.12, а промежуточные результаты и значения коэффициента детерминации ниже. Поскольку коэффициент детерминации для случая квадратичной регрессии значительно превосходит коэффициент детерминации для случая линейной регрессии и имеет достаточно большое значение (0,472867), делаем вывод, что квадратичная регрессия достаточно хорошо согласуется со статистическими данными.

Выполним оценку значимости полученного приближения функции в целом с помощью критерия Фишера. Для этого найдем значения критерия Фишера по выборке для рассматриваемых двух видов зависимости (см. рис.12 и 13).

RyP(x)

RyP₂(x)

=КОРРЕЛ(C2:C52;D2:D52)

=КОРРЕЛ(C2:C52;H2:H52)

S_ост

=F53/48

=I53/45

6 7

S_факт

=L53/48

=N53/45

R²

R₂²

=1-R5/ (R9 + R5)

=1-S5/ (S9 + S5)

F_расч

F_2расч

=R11*(51-2-1)/(1-R11)/2

=S11*(51-2-1)/(1-S11)/2

F_{крит =}

3,205

Рис.12.Расчетные формулы

Как видно, расчетное значение F-критерия для квадратичной зависимости значительно превосходит значение F_крит,что подтверждает ее значимость. Для линейной зависимости превышение F_расч не столь велико, что делает снова-таки предпочтительнее квадратичную оценку регрессии y₂ на x₄ и x₈.