Контрольное задание вариант 16
Исследуется зависимость урожайности у зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно,
X1 - число тракторов на 100 га;
X2 - число зерноуборочных комбайнов на 100 га;
X3 - число орудий поверхностной обработки почвы на 100 га;
X4 - количество удобрений, расходуемых на гектар (т/га);
X5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).
Исходные данные для 20 районов области приведены в таблице.
y | X1 | X2 | X3 | X4 | X5 | |
1 | 9,7 | 1,59 | 0,26 | 2,05 | 0,32 | 0,14 |
2 | 8,4 | 0,34 | 0,28 | 0,46 | 0,59 | 0,66 |
3 | 9,0 | 2,53 | 0,31 | 2,46 | 0,30 | 0,31 |
4 | 9,9 | 4,63 | 0,40 | 6,44 | 0,43 | 0,59 |
5 | 9,6 | 2,16 | 0,26 | 2,16 | 0,39 | 0,16 |
6 | 8,6 | 2,16 | 0,30 | 2,69 | 0,32 | 0,17 |
7 | 12,5 | 0,68 | 0,29 | 0,73 | 0,42 | 0,23 |
8 | 7,6 | 0,35 | 0,26 | 0,42 | 0,21 | 0,08 |
9 | 6,9 | 0,52 | 0,24 | 0,49 | 0,20 | 0,08 |
10 | 13,5 | 3,42 | 0,31 | 3,02 | 1,37 | 0,73 |
11 | 9,7 | 1,78 | 0,30 | 3,19 | 0,73 | 0,17 |
12 | 10,7 | 2,40 | 0,32 | 3,30 | 0,25 | 0,14 |
13 | 12,1 | 9,36 | 0,40 | 11,51 | 0,39 | 0,38 |
14 | 9,7 | 1,72 | 0,28 | 2,26 | 0,82 | 0,17 |
15 | 7,0 | 0,59 | 0,29 | 0,60 | 0,13 | 0,35 |
16 | 7,2 | 0,28 | 0,26 | 0,30 | 0,09 | 0,15 |
17 | 8,2 | 1,64 | 0,29 | 1,44 | 0,20 | 0,08 |
18 | 8,4 | 0,09 | 0,22 | 0,05 | 0,43 | 0,20 |
19 | 13,1 | 0,08 | 0,25 | 0,03 | 0,73 | 0,20 |
20 | 8,7 | 1,36 | 0,26 | 0,17 | 0,99 | 0,42 |
Здесь мы располагаем выборкой объемом п = 20; число независимых переменных (факторов) m = 5.
Необходимо:
- построить 5 уравнений линейной регрессии, последовательно увеличивая число факторных переменных от одной до пяти;
- определить оценки параметров в уравнениях регрессии;
- определить качество полученных уравнений регрессии и их статистическую значимость;
- оценить статистическую значимость параметров регрессии;
- построить графики остатков для полученных регрессий;
- выбрать лучшую модель;
- для этой модели рассчитать нормированные коэффициенты bj
По каждому пункту сделать выводы.
Исходные данные для 20 районов области для варианта 16 приведены в таблице.
Вариант номер | 16 | ||||||
y | y' | X1 | X2 | X3 | X4 | X5 | |
1 | 9,7 | 10,5 | 1,59 | 0,26 | 2,05 | 0,32 | 0,14 |
2 | 8,4 | 9,2 | 0,34 | 0,28 | 0,46 | 0,59 | 0,66 |
3 | 9 | 9,8 | 2,53 | 0,31 | 2,46 | 0,3 | 0,31 |
4 | 9,9 | 10,7 | 4,63 | 0,4 | 6,44 | 0,43 | 0,59 |
5 | 9,6 | 10,4 | 2,16 | 0,26 | 2,16 | 0,39 | 0,16 |
6 | 8,6 | 9,4 | 2,16 | 0,3 | 2,69 | 0,32 | 0,17 |
7 | 12,5 | 13,3 | 0,68 | 0,29 | 0,73 | 0,42 | 0,23 |
8 | 7,6 | 8,4 | 0,35 | 0,26 | 0,42 | 0,21 | 0,08 |
9 | 6,9 | 7,7 | 0,52 | 0,24 | 0,49 | 0,2 | 0,08 |
10 | 13,5 | 14,3 | 3,42 | 0,31 | 3,02 | 1,37 | 0,73 |
11 | 9,7 | 10,5 | 1,78 | 0,3 | 3,19 | 0,73 | 0,17 |
12 | 10,7 | 11,5 | 2,4 | 0,32 | 3,3 | 0,25 | 0,14 |
13 | 12,1 | 12,9 | 9,36 | 0,4 | 11,51 | 0,39 | 0,38 |
14 | 9,7 | 10,5 | 1,72 | 0,28 | 2,26 | 0,82 | 0,17 |
15 | 7 | 7,8 | 0,59 | 0,29 | 0,6 | 0,13 | 0,35 |
16 | 7,2 | 8 | 0,28 | 0,26 | 0,3 | 0,09 | 0,15 |
17 | 8,2 | 9 | 1,64 | 0,29 | 1,44 | 0,2 | 0,08 |
18 | 8,4 | 9,2 | 0,09 | 0,22 | 0,05 | 0,43 | 0,2 |
19 | 13,1 | 13,9 | 0,08 | 0,25 | 0,03 | 0,73 | 0,2 |
20 | 8,7 | 9,5 | 1,36 | 0,26 | 0,17 | 0,99 | 0,42 |
Для выполнения задания используется регрессионный метод пакета «Анализ данных» MS Excel.
1) Построим уравнения линейной регрессии. Последовательно увеличивая число факторных переменных от одной до пяти.
а) от одной факторной переменной Х1
| Коэффициенты |
Y-пересечение | 9,571636 |
Переменная X 1 | 0,399875 |
у = 9,571636+ 0,399875Х1
б) от двух факторных переменных Х1 и Х2
| Коэффициенты |
Y-пересечение | 9,306038 |
Переменная X 1 | 0,380674 |
Переменная X 2 | 1,044196 |
у = 9,306038+ 0,380674Х1 + 1,044196Х2
в) от трех факторных переменных Х1, Х2 и Х3
| Коэффициенты |
Y-пересечение | 8,253245 |
Переменная X 1 | 0,785736 |
Переменная X 2 | 4,944653 |
Переменная X 3 | -0,38272 |
у = 8,253245+ 0,785736Х1 + 4,944653Х2 – 0,38272Х3
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
| Коэффициенты |
Y-пересечение | 7,277331 |
Переменная X 1 | -0,23528 |
Переменная X 2 | 3,134736 |
Переменная X 3 | 0,415261 |
Переменная X 4 | 3,60087 |
у = 7,2773– 0,2352Х1 + 3,1347Х2 + 0,4152Х3 + 3,60087Х4
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
| Коэффициенты |
Y-пересечение | 4,314595 |
Переменная X 1 | -0,00613 |
Переменная X 2 | 15,54246 |
Переменная X 3 | 0,109899 |
Переменная X 4 | 4,474575 |
Переменная X 5 | -2,93251 |
у = 4,3146– 0,0061Х1 + 15,5424Х2 + 0,1099Х3 + 4,4745Х4 – 2,9325Х5
2 ) определим качество уравнений регрессии
Для этого определим индекс детерминации для каждого уравнения регрессии.
а) от одной факторной переменной Х1
Регрессионная статистика | |
Множественный R | 0,43025 |
R-квадрат | 0,185115 |
Нормированный R-квадрат | 0,139844 |
Стандартная ошибка | 1,832269 |
Наблюдения | 20 |
б) от двух факторных переменных Х1 и Х2
Регрессионная статистика | |
Множественный R | 0,441693 |
R-квадрат | 0,195093 |
Нормированный R-квадрат | 0,044173 |
Стандартная ошибка | 1,931481 |
Наблюдения | 20 |
в) от трех факторных переменных Х1, Х2 и Х3
Регрессионная статистика | |
Множественный R | 0,4412 |
R-квадрат | 0,1947 |
Нормированный R-квадрат | 0,0437 |
Стандартная ошибка | 1,9331 |
Наблюдения | 20 |
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Регрессионная статистика | |
Множественный R | 0,697293 |
R-квадрат | 0,486217 |
Нормированный R-квадрат | 0,349209 |
Стандартная ошибка | 1,593755 |
Наблюдения | 20 |
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Регрессионная статистика | |
Множественный R | 0,719239 |
R-квадрат | 0,517304 |
Нормированный R-квадрат | 0,344913 |
Стандартная ошибка | 1,599007 |
Наблюдения | 20 |
Чем выше индекс детерминации, тем точнее уравнение регрессии. Наивысший R-квадрат наблюдается для пятого уравнения.
3) проверим существенность связи (значимость R-квадрат)
Для этого используют критерий Фишера, который либо сравнивают с критическим значением (F > Fкр – статистически значимая связь), либо сравнивается с показателем значимости α = 0,05 (значимость F < α – статистически значимая связь). Если связь не является статистически значимой, то R-квадрат равен 0. В данном случае значимость критерия Фишера сравнивается с показателем значимости.
а) от одной факторной переменной Х1
Дисперсионный анализ |
|
|
| ||||||||
| df | SS | MS | F | Значимость F | ||||||
Регрессия | 1 | 13,7277 | 13,7277 | 4,089019 | 0,058282 | ||||||
Остаток | 18 | 60,4298 | 3,357211 |
|
| ||||||
Итого | 19 | 74,1575 |
|
|
| ||||||
Значимость F> α(0,05), следовательно, связь не является значимой и R-квадрат приравнивается к 0.
б) от двух факторных переменных Х1 и Х2
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 2 | 13,73942 | 6,869711 | 1,932949 | 0,175227 |
Остаток | 17 | 60,41808 | 3,554005 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F > α, следовательно, связь не является значимой и R-квадрат приравнивается к 0.
в) от трех факторных переменных Х1, Х2 и Х3
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 3 | 14,46761 | 4,822536 | 1,292691 | 0,311004 |
Остаток | 16 | 59,68989 | 3,730618 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F > α, следовательно, связь не является значимой и R-квадрат приравнивается к 0.
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 4 | 36,05666 | 9,014165 | 3,548806 | 0,031476 |
Остаток | 15 | 38,10084 | 2,540056 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F < α, следовательно, связь является значимой.
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 5 | 38,36199 | 7,672398 | 3,000755 | 0,047874 |
Остаток | 14 | 35,79551 | 2,556822 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F < α, следовательно, связь является значимой.
проверим значимость каждого коэффициента в уравнении регрессии
Это осуществляется с помощью t-критерия Стьюдента, или по P-уровню. В данном случае Р-значение сравнивается с уровнем значимости α. Если P < α, то проверяемый коэффициент статистически значим, в противном случае Р приравнивается к 0.
а) от одной факторной переменной Х1
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 9,571636 | 0,55377 | 17,28451 | 1,18 |
Переменная X 1 | 0,399875 | 0,197749 | 2,022132 | 0,058282 |
Р-значение коэффициента у-пересечения меньше α, коэффициент статистически значим. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.
б) от двух факторных переменных Х1 и Х2
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | 9,306038 | 4,659686 | 1,997138 | 0,062075 |
Переменная X 1 | 0,380674 | 0,391382 | 0,97264 | 0,344369 |
Переменная X 2 | 1,044196 | 18,18206 | 0,05743 | 0,954872 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.
в) от трех факторных переменных Х1, Х2 и Х3
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 8,253245 | 5,335734 | 1,546787 | 0,141464 |
Переменная X 1 | 0,785736 | 1,00069 | 0,785194 | 0,443812 |
Переменная X 2 | 4,944653 | 20,61449 | 0,239863 | 0,813482 |
Переменная X 3 | -0,38272 | 0,866259 | -0,4418 | 0,664543 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно, он приравнивается к 0.
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 7,277331 | 4,415472 | 1,648143 | 0,120105 |
Переменная X 1 | -0,23528 | 0,896917 | -0,26232 | 0,79664 |
Переменная X 2 | 3,134736 | 17,02131 | 0,184165 | 0,85635 |
Переменная X 3 | 0,415261 | 0,765405 | 0,542538 | 0,595418 |
Переменная X 4 | 3,60087 | 1,235129 | 2,91538 | 0,010657 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше α, коэффициент статистически значим.
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 4,314595 | 5,418531 | 0,796267 | 0,439171 |
Переменная X 1 | -0,00613 | 0,931671 | -0,00658 | 0,994843 |
Переменная X 2 | 15,54246 | 21,50311 | 0,7228 | 0,481704 |
Переменная X 3 | 0,109899 | 0,832545 | 0,132004 | 0,896859 |
Переменная X 4 | 4,474575 | 1,543454 | 2,899065 | 0,011664 |
Переменная X 5 | -2,93251 | 3,088329 | -0,94955 | 0,358448 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше α, коэффициент статистически значим. Р-значение коэффициента переменной Х5 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.
5) построим графики остатков для полученных регрессий
Исследование графиков остатков определяет границы применения метода наименьших квадратов, который используется для вычисления коэффициентов уравнения регрессии по наблюдаемым данным.
ПРИЛОЖЕНИЕ