Проверим значимость каждого коэффициента в уравнении регрессии

Контрольное задание вариант 16

Исследуется зависимость урожайности у зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно,

X1 - число тракторов на 100 га;

X2 - число зерноуборочных комбайнов на 100 га;

X3 - число орудий поверхностной обработки почвы на 100 га;

X4 - количество удобрений, расходуемых на гектар (т/га);

X5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).

Исходные данные для 20 районов области приведены в таблице.

 

  y X1 X2 X3 X4 X5
1 9,7 1,59 0,26 2,05 0,32 0,14
2 8,4 0,34 0,28 0,46 0,59 0,66
3 9,0 2,53 0,31 2,46 0,30 0,31
4 9,9 4,63 0,40 6,44 0,43 0,59
5 9,6 2,16 0,26 2,16 0,39 0,16
6 8,6 2,16 0,30 2,69 0,32 0,17
7 12,5 0,68 0,29 0,73 0,42 0,23
8 7,6 0,35 0,26 0,42 0,21 0,08
9 6,9 0,52 0,24 0,49 0,20 0,08
10 13,5 3,42 0,31 3,02 1,37 0,73
11 9,7 1,78 0,30 3,19 0,73 0,17
12 10,7 2,40 0,32 3,30 0,25 0,14
13 12,1 9,36 0,40 11,51 0,39 0,38
14 9,7 1,72 0,28 2,26 0,82 0,17
15 7,0 0,59 0,29 0,60 0,13 0,35
16 7,2 0,28 0,26 0,30 0,09 0,15
17 8,2 1,64 0,29 1,44 0,20 0,08
18 8,4 0,09 0,22 0,05 0,43 0,20
19 13,1 0,08 0,25 0,03 0,73 0,20
20 8,7 1,36 0,26 0,17 0,99 0,42

 

Здесь мы располагаем выборкой объемом п = 20; число независимых переменных (факторов) m = 5.

Необходимо:

- построить 5 уравнений линейной регрессии, последовательно увеличивая число факторных переменных от одной до пяти;

- определить оценки параметров в уравнениях регрессии;

- определить качество полученных уравнений регрессии и их статистическую значимость;

- оценить статистическую значимость параметров регрессии;

- построить графики остатков для полученных регрессий;

- выбрать лучшую модель;

- для этой модели рассчитать нормированные коэффициенты bj

По каждому пункту сделать выводы.

Исходные данные для 20 районов области для варианта 16 приведены в таблице.

 

Вариант номер

16

  y y' X1 X2 X3 X4 X5
1 9,7 10,5 1,59 0,26 2,05 0,32 0,14
2 8,4 9,2 0,34 0,28 0,46 0,59 0,66
3 9 9,8 2,53 0,31 2,46 0,3 0,31
4 9,9 10,7 4,63 0,4 6,44 0,43 0,59
5 9,6 10,4 2,16 0,26 2,16 0,39 0,16
6 8,6 9,4 2,16 0,3 2,69 0,32 0,17
7 12,5 13,3 0,68 0,29 0,73 0,42 0,23
8 7,6 8,4 0,35 0,26 0,42 0,21 0,08
9 6,9 7,7 0,52 0,24 0,49 0,2 0,08
10 13,5 14,3 3,42 0,31 3,02 1,37 0,73
11 9,7 10,5 1,78 0,3 3,19 0,73 0,17
12 10,7 11,5 2,4 0,32 3,3 0,25 0,14
13 12,1 12,9 9,36 0,4 11,51 0,39 0,38
14 9,7 10,5 1,72 0,28 2,26 0,82 0,17
15 7 7,8 0,59 0,29 0,6 0,13 0,35
16 7,2 8 0,28 0,26 0,3 0,09 0,15
17 8,2 9 1,64 0,29 1,44 0,2 0,08
18 8,4 9,2 0,09 0,22 0,05 0,43 0,2
19 13,1 13,9 0,08 0,25 0,03 0,73 0,2
20 8,7 9,5 1,36 0,26 0,17 0,99 0,42

 

Для выполнения задания используется регрессионный метод пакета «Анализ данных» MS Excel.

1) Построим уравнения линейной регрессии. Последовательно увеличивая число факторных переменных от одной до пяти.

а) от одной факторной переменной Х1

 

Коэффициенты

Y-пересечение

9,571636

Переменная X 1

0,399875

у = 9,571636+ 0,399875Х1

 

б) от двух факторных переменных Х1 и Х2

 

Коэффициенты

Y-пересечение

9,306038

Переменная X 1

0,380674

Переменная X 2

1,044196

у = 9,306038+ 0,380674Х1 + 1,044196Х2

 

в) от трех факторных переменных Х1, Х2 и Х3

 

Коэффициенты

Y-пересечение

8,253245

Переменная X 1

0,785736

Переменная X 2

4,944653

Переменная X 3

-0,38272

у = 8,253245+ 0,785736Х1 + 4,944653Х2 – 0,38272Х3

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

 

Коэффициенты

Y-пересечение

7,277331

Переменная X 1

-0,23528

Переменная X 2

3,134736

Переменная X 3

0,415261

Переменная X 4

3,60087

у = 7,2773– 0,2352Х1 + 3,1347Х2 + 0,4152Х3 + 3,60087Х4

 

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

 

Коэффициенты

Y-пересечение

4,314595

Переменная X 1

-0,00613

Переменная X 2

15,54246

Переменная X 3

0,109899

Переменная X 4

4,474575

Переменная X 5

-2,93251

у = 4,3146– 0,0061Х1 + 15,5424Х2 + 0,1099Х3 + 4,4745Х4 – 2,9325Х5

 

2 ) определим качество уравнений регрессии

Для этого определим индекс детерминации для каждого уравнения регрессии.

а) от одной факторной переменной Х1

Регрессионная статистика

Множественный R

0,43025

R-квадрат

0,185115

Нормированный R-квадрат

0,139844

Стандартная ошибка

1,832269

Наблюдения

20

 

б) от двух факторных переменных Х1 и Х2

Регрессионная статистика

Множественный R

0,441693

R-квадрат

0,195093

Нормированный R-квадрат

0,044173

Стандартная ошибка

1,931481

Наблюдения

20

 

в) от трех факторных переменных Х1, Х2 и Х3

Регрессионная статистика

Множественный R

0,4412

R-квадрат

0,1947

Нормированный R-квадрат

0,0437

Стандартная ошибка

1,9331

Наблюдения

20

 

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

Регрессионная статистика

 

Множественный R

0,697293

R-квадрат

0,486217

Нормированный R-квадрат

0,349209

Стандартная ошибка

1,593755

Наблюдения

20

 

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

Регрессионная статистика

Множественный R

0,719239

R-квадрат

0,517304

Нормированный R-квадрат

0,344913

Стандартная ошибка

1,599007

Наблюдения

20

 

Чем выше индекс детерминации, тем точнее уравнение регрессии. Наивысший R-квадрат наблюдается для пятого уравнения.

 

3) проверим существенность связи (значимость R-квадрат)

Для этого используют критерий Фишера, который либо сравнивают с критическим значением (F > Fкр – статистически значимая связь), либо сравнивается с показателем значимости α = 0,05 (значимость F < α – статистически значимая связь). Если связь не является статистически значимой, то R-квадрат равен 0. В данном случае значимость критерия Фишера сравнивается с показателем значимости.

 

 

а) от одной факторной переменной Х1

Дисперсионный анализ

 

 

 

 

df

SS

MS

F

Значимость F

Регрессия

1

13,7277

13,7277

4,089019

0,058282

 

Остаток

18

60,4298

3,357211

 

 

 

Итого

19

74,1575

 

 

 

 
                       

Значимость F> α(0,05), следовательно, связь не является значимой и R-квадрат приравнивается к 0.

 

б) от двух факторных переменных Х1 и Х2

Дисперсионный анализ

 

 

 

 

df

SS

MS

F

Значимость F

Регрессия

2

13,73942

6,869711

1,932949

0,175227

Остаток

17

60,41808

3,554005

 

 

Итого

19

74,1575

 

 

 

 

Значимость F > α, следовательно, связь не является значимой и R-квадрат приравнивается к 0.

 

в) от трех факторных переменных Х1, Х2 и Х3

Дисперсионный анализ

 

 

 

 

df

SS

MS

F

Значимость F

Регрессия

3

14,46761

4,822536

1,292691

0,311004

Остаток

16

59,68989

3,730618

 

 

Итого

19

74,1575

 

 

 

 

Значимость F > α, следовательно, связь не является значимой и R-квадрат приравнивается к 0.

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

Дисперсионный анализ

 

 

 

 

df

SS

MS

F

Значимость F

Регрессия

4

36,05666

9,014165

3,548806

0,031476

Остаток

15

38,10084

2,540056

 

 

Итого

19

74,1575

 

 

 

 

Значимость F < α, следовательно, связь является значимой.

 

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

Дисперсионный анализ

 

 

 

 

df

SS

MS

F

Значимость F

Регрессия

5

38,36199

7,672398

3,000755

0,047874

Остаток

14

35,79551

2,556822

 

 

Итого

19

74,1575

 

 

 

 

Значимость F < α, следовательно, связь является значимой.

 

проверим значимость каждого коэффициента в уравнении регрессии

Это осуществляется с помощью t-критерия Стьюдента, или по P-уровню. В данном случае Р-значение сравнивается с уровнем значимости α. Если P < α, то проверяемый коэффициент статистически значим, в противном случае Р приравнивается к 0.

 

а) от одной факторной переменной Х1

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

9,571636

0,55377

17,28451

1,18

Переменная X 1

0,399875

0,197749

2,022132

0,058282

 

Р-значение коэффициента у-пересечения меньше α, коэффициент статистически значим.  Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.

 

б) от двух факторных переменных Х1 и Х2

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

9,306038

4,659686

1,997138

0,062075

Переменная X 1

0,380674

0,391382

0,97264

0,344369

Переменная X 2

1,044196

18,18206

0,05743

0,954872

 

Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.

 

в) от трех факторных переменных Х1, Х2 и Х3

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

8,253245

5,335734

1,546787

0,141464

Переменная X 1

0,785736

1,00069

0,785194

0,443812

Переменная X 2

4,944653

20,61449

0,239863

0,813482

Переменная X 3

-0,38272

0,866259

-0,4418

0,664543

 

Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно, он приравнивается к 0.

 

г) от четырех факторных переменных Х1, Х2, Х3 и Х4

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

7,277331

4,415472

1,648143

0,120105

Переменная X 1

-0,23528

0,896917

-0,26232

0,79664

Переменная X 2

3,134736

17,02131

0,184165

0,85635

Переменная X 3

0,415261

0,765405

0,542538

0,595418

Переменная X 4

3,60087

1,235129

2,91538

0,010657

 

Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше α, коэффициент статистически значим.

 

д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

4,314595

5,418531

0,796267

0,439171

Переменная X 1

-0,00613

0,931671

-0,00658

0,994843

Переменная X 2

15,54246

21,50311

0,7228

0,481704

Переменная X 3

0,109899

0,832545

0,132004

0,896859

Переменная X 4

4,474575

1,543454

2,899065

0,011664

Переменная X 5

-2,93251

3,088329

-0,94955

0,358448

 

Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше α, коэффициент статистически значим. Р-значение коэффициента переменной Х5 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.

 

5) построим графики остатков для полученных регрессий

Исследование графиков остатков определяет границы применения метода наименьших квадратов, который используется для вычисления коэффициентов уравнения регрессии по наблюдаемым данным.

 

ПРИЛОЖЕНИЕ


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: