Контрольное задание вариант 16
Исследуется зависимость урожайности у зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно,
X1 - число тракторов на 100 га;
X2 - число зерноуборочных комбайнов на 100 га;
X3 - число орудий поверхностной обработки почвы на 100 га;
X4 - количество удобрений, расходуемых на гектар (т/га);
X5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).
Исходные данные для 20 районов области приведены в таблице.
y | X1 | X2 | X3 | X4 | X5 | |
1 | 9,7 | 1,59 | 0,26 | 2,05 | 0,32 | 0,14 |
2 | 8,4 | 0,34 | 0,28 | 0,46 | 0,59 | 0,66 |
3 | 9,0 | 2,53 | 0,31 | 2,46 | 0,30 | 0,31 |
4 | 9,9 | 4,63 | 0,40 | 6,44 | 0,43 | 0,59 |
5 | 9,6 | 2,16 | 0,26 | 2,16 | 0,39 | 0,16 |
6 | 8,6 | 2,16 | 0,30 | 2,69 | 0,32 | 0,17 |
7 | 12,5 | 0,68 | 0,29 | 0,73 | 0,42 | 0,23 |
8 | 7,6 | 0,35 | 0,26 | 0,42 | 0,21 | 0,08 |
9 | 6,9 | 0,52 | 0,24 | 0,49 | 0,20 | 0,08 |
10 | 13,5 | 3,42 | 0,31 | 3,02 | 1,37 | 0,73 |
11 | 9,7 | 1,78 | 0,30 | 3,19 | 0,73 | 0,17 |
12 | 10,7 | 2,40 | 0,32 | 3,30 | 0,25 | 0,14 |
13 | 12,1 | 9,36 | 0,40 | 11,51 | 0,39 | 0,38 |
14 | 9,7 | 1,72 | 0,28 | 2,26 | 0,82 | 0,17 |
15 | 7,0 | 0,59 | 0,29 | 0,60 | 0,13 | 0,35 |
16 | 7,2 | 0,28 | 0,26 | 0,30 | 0,09 | 0,15 |
17 | 8,2 | 1,64 | 0,29 | 1,44 | 0,20 | 0,08 |
18 | 8,4 | 0,09 | 0,22 | 0,05 | 0,43 | 0,20 |
19 | 13,1 | 0,08 | 0,25 | 0,03 | 0,73 | 0,20 |
20 | 8,7 | 1,36 | 0,26 | 0,17 | 0,99 | 0,42 |
|
|
Здесь мы располагаем выборкой объемом п = 20; число независимых переменных (факторов) m = 5.
Необходимо:
- построить 5 уравнений линейной регрессии, последовательно увеличивая число факторных переменных от одной до пяти;
- определить оценки параметров в уравнениях регрессии;
- определить качество полученных уравнений регрессии и их статистическую значимость;
- оценить статистическую значимость параметров регрессии;
- построить графики остатков для полученных регрессий;
- выбрать лучшую модель;
- для этой модели рассчитать нормированные коэффициенты bj
По каждому пункту сделать выводы.
Исходные данные для 20 районов области для варианта 16 приведены в таблице.
Вариант номер | 16 | ||||||
y | y' | X1 | X2 | X3 | X4 | X5 | |
1 | 9,7 | 10,5 | 1,59 | 0,26 | 2,05 | 0,32 | 0,14 |
2 | 8,4 | 9,2 | 0,34 | 0,28 | 0,46 | 0,59 | 0,66 |
3 | 9 | 9,8 | 2,53 | 0,31 | 2,46 | 0,3 | 0,31 |
4 | 9,9 | 10,7 | 4,63 | 0,4 | 6,44 | 0,43 | 0,59 |
5 | 9,6 | 10,4 | 2,16 | 0,26 | 2,16 | 0,39 | 0,16 |
6 | 8,6 | 9,4 | 2,16 | 0,3 | 2,69 | 0,32 | 0,17 |
7 | 12,5 | 13,3 | 0,68 | 0,29 | 0,73 | 0,42 | 0,23 |
8 | 7,6 | 8,4 | 0,35 | 0,26 | 0,42 | 0,21 | 0,08 |
9 | 6,9 | 7,7 | 0,52 | 0,24 | 0,49 | 0,2 | 0,08 |
10 | 13,5 | 14,3 | 3,42 | 0,31 | 3,02 | 1,37 | 0,73 |
11 | 9,7 | 10,5 | 1,78 | 0,3 | 3,19 | 0,73 | 0,17 |
12 | 10,7 | 11,5 | 2,4 | 0,32 | 3,3 | 0,25 | 0,14 |
13 | 12,1 | 12,9 | 9,36 | 0,4 | 11,51 | 0,39 | 0,38 |
14 | 9,7 | 10,5 | 1,72 | 0,28 | 2,26 | 0,82 | 0,17 |
15 | 7 | 7,8 | 0,59 | 0,29 | 0,6 | 0,13 | 0,35 |
16 | 7,2 | 8 | 0,28 | 0,26 | 0,3 | 0,09 | 0,15 |
17 | 8,2 | 9 | 1,64 | 0,29 | 1,44 | 0,2 | 0,08 |
18 | 8,4 | 9,2 | 0,09 | 0,22 | 0,05 | 0,43 | 0,2 |
19 | 13,1 | 13,9 | 0,08 | 0,25 | 0,03 | 0,73 | 0,2 |
20 | 8,7 | 9,5 | 1,36 | 0,26 | 0,17 | 0,99 | 0,42 |
Для выполнения задания используется регрессионный метод пакета «Анализ данных» MS Excel.
1) Построим уравнения линейной регрессии. Последовательно увеличивая число факторных переменных от одной до пяти.
|
|
а) от одной факторной переменной Х1
| Коэффициенты |
Y-пересечение | 9,571636 |
Переменная X 1 | 0,399875 |
у = 9,571636+ 0,399875Х1
б) от двух факторных переменных Х1 и Х2
| Коэффициенты |
Y-пересечение | 9,306038 |
Переменная X 1 | 0,380674 |
Переменная X 2 | 1,044196 |
у = 9,306038+ 0,380674Х1 + 1,044196Х2
в) от трех факторных переменных Х1, Х2 и Х3
| Коэффициенты |
Y-пересечение | 8,253245 |
Переменная X 1 | 0,785736 |
Переменная X 2 | 4,944653 |
Переменная X 3 | -0,38272 |
у = 8,253245+ 0,785736Х1 + 4,944653Х2 – 0,38272Х3
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
| Коэффициенты |
Y-пересечение | 7,277331 |
Переменная X 1 | -0,23528 |
Переменная X 2 | 3,134736 |
Переменная X 3 | 0,415261 |
Переменная X 4 | 3,60087 |
у = 7,2773– 0,2352Х1 + 3,1347Х2 + 0,4152Х3 + 3,60087Х4
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
| Коэффициенты |
Y-пересечение | 4,314595 |
Переменная X 1 | -0,00613 |
Переменная X 2 | 15,54246 |
Переменная X 3 | 0,109899 |
Переменная X 4 | 4,474575 |
Переменная X 5 | -2,93251 |
у = 4,3146– 0,0061Х1 + 15,5424Х2 + 0,1099Х3 + 4,4745Х4 – 2,9325Х5
2 ) определим качество уравнений регрессии
Для этого определим индекс детерминации для каждого уравнения регрессии.
а) от одной факторной переменной Х1
Регрессионная статистика | |
Множественный R | 0,43025 |
R-квадрат | 0,185115 |
Нормированный R-квадрат | 0,139844 |
Стандартная ошибка | 1,832269 |
Наблюдения | 20 |
б) от двух факторных переменных Х1 и Х2
Регрессионная статистика | |
Множественный R | 0,441693 |
R-квадрат | 0,195093 |
Нормированный R-квадрат | 0,044173 |
Стандартная ошибка | 1,931481 |
Наблюдения | 20 |
в) от трех факторных переменных Х1, Х2 и Х3
Регрессионная статистика | |
Множественный R | 0,4412 |
R-квадрат | 0,1947 |
Нормированный R-квадрат | 0,0437 |
Стандартная ошибка | 1,9331 |
Наблюдения | 20 |
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Регрессионная статистика | |
Множественный R | 0,697293 |
R-квадрат | 0,486217 |
Нормированный R-квадрат | 0,349209 |
Стандартная ошибка | 1,593755 |
Наблюдения | 20 |
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Регрессионная статистика | |
Множественный R | 0,719239 |
R-квадрат | 0,517304 |
Нормированный R-квадрат | 0,344913 |
Стандартная ошибка | 1,599007 |
Наблюдения | 20 |
Чем выше индекс детерминации, тем точнее уравнение регрессии. Наивысший R-квадрат наблюдается для пятого уравнения.
3) проверим существенность связи (значимость R-квадрат)
Для этого используют критерий Фишера, который либо сравнивают с критическим значением (F > Fкр – статистически значимая связь), либо сравнивается с показателем значимости α = 0,05 (значимость F < α – статистически значимая связь). Если связь не является статистически значимой, то R-квадрат равен 0. В данном случае значимость критерия Фишера сравнивается с показателем значимости.
а) от одной факторной переменной Х1
Дисперсионный анализ |
|
|
| ||||||||
| df | SS | MS | F | Значимость F | ||||||
Регрессия | 1 | 13,7277 | 13,7277 | 4,089019 | 0,058282 | ||||||
Остаток | 18 | 60,4298 | 3,357211 |
|
| ||||||
Итого | 19 | 74,1575 |
|
|
| ||||||
Значимость F> α(0,05), следовательно, связь не является значимой и R-квадрат приравнивается к 0.
б) от двух факторных переменных Х1 и Х2
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 2 | 13,73942 | 6,869711 | 1,932949 | 0,175227 |
Остаток | 17 | 60,41808 | 3,554005 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F > α, следовательно, связь не является значимой и R-квадрат приравнивается к 0.
в) от трех факторных переменных Х1, Х2 и Х3
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 3 | 14,46761 | 4,822536 | 1,292691 | 0,311004 |
Остаток | 16 | 59,68989 | 3,730618 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F > α, следовательно, связь не является значимой и R-квадрат приравнивается к 0.
|
|
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 4 | 36,05666 | 9,014165 | 3,548806 | 0,031476 |
Остаток | 15 | 38,10084 | 2,540056 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F < α, следовательно, связь является значимой.
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
Дисперсионный анализ |
|
|
| ||
| df | SS | MS | F | Значимость F |
Регрессия | 5 | 38,36199 | 7,672398 | 3,000755 | 0,047874 |
Остаток | 14 | 35,79551 | 2,556822 |
|
|
Итого | 19 | 74,1575 |
|
|
|
Значимость F < α, следовательно, связь является значимой.
проверим значимость каждого коэффициента в уравнении регрессии
Это осуществляется с помощью t-критерия Стьюдента, или по P-уровню. В данном случае Р-значение сравнивается с уровнем значимости α. Если P < α, то проверяемый коэффициент статистически значим, в противном случае Р приравнивается к 0.
а) от одной факторной переменной Х1
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 9,571636 | 0,55377 | 17,28451 | 1,18 |
Переменная X 1 | 0,399875 | 0,197749 | 2,022132 | 0,058282 |
Р-значение коэффициента у-пересечения меньше α, коэффициент статистически значим. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.
б) от двух факторных переменных Х1 и Х2
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | 9,306038 | 4,659686 | 1,997138 | 0,062075 |
Переменная X 1 | 0,380674 | 0,391382 | 0,97264 | 0,344369 |
Переменная X 2 | 1,044196 | 18,18206 | 0,05743 | 0,954872 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.
|
|
в) от трех факторных переменных Х1, Х2 и Х3
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 8,253245 | 5,335734 | 1,546787 | 0,141464 |
Переменная X 1 | 0,785736 | 1,00069 | 0,785194 | 0,443812 |
Переменная X 2 | 4,944653 | 20,61449 | 0,239863 | 0,813482 |
Переменная X 3 | -0,38272 | 0,866259 | -0,4418 | 0,664543 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно, он приравнивается к 0.
г) от четырех факторных переменных Х1, Х2, Х3 и Х4
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 7,277331 | 4,415472 | 1,648143 | 0,120105 |
Переменная X 1 | -0,23528 | 0,896917 | -0,26232 | 0,79664 |
Переменная X 2 | 3,134736 | 17,02131 | 0,184165 | 0,85635 |
Переменная X 3 | 0,415261 | 0,765405 | 0,542538 | 0,595418 |
Переменная X 4 | 3,60087 | 1,235129 | 2,91538 | 0,010657 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше α, коэффициент статистически значим.
д) от пяти факторных переменных Х1, Х2, Х3, Х4 и Х5
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение |
Y-пересечение | 4,314595 | 5,418531 | 0,796267 | 0,439171 |
Переменная X 1 | -0,00613 | 0,931671 | -0,00658 | 0,994843 |
Переменная X 2 | 15,54246 | 21,50311 | 0,7228 | 0,481704 |
Переменная X 3 | 0,109899 | 0,832545 | 0,132004 | 0,896859 |
Переменная X 4 | 4,474575 | 1,543454 | 2,899065 | 0,011664 |
Переменная X 5 | -2,93251 | 3,088329 | -0,94955 | 0,358448 |
Р-значение коэффициента у-пересечения больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х1 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х2 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х3 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0. Р-значение коэффициента переменной Х4 меньше α, коэффициент статистически значим. Р-значение коэффициента переменной Х5 больше α, коэффициент статистически не значим, следовательно он приравнивается к 0.
5) построим графики остатков для полученных регрессий
Исследование графиков остатков определяет границы применения метода наименьших квадратов, который используется для вычисления коэффициентов уравнения регрессии по наблюдаемым данным.
ПРИЛОЖЕНИЕ