Задание №3 «Модель парной регрессии»

В данном задании необходимо в соответствии со спецификацией и качественным анализом данных (проведенным в рамках задания №2) построить парную модель регрессии и дать её интерпретацию. Оценить качество модели через коэффициент детерминации, среднюю ошибку аппроксимации, t -критерий Стьюдента и F -критерий Фишера; выполнить прогноз уровня результирующих показателей при прогнозном значении фактора (ВРП), составляющем 110% от среднего уровня. Оценить качество прогноза, рассчитав ошибку прогноза и доверительный интервал.

В рамках данного задания необходимо, в первую очередь, сформировать три таблицы исходных данных:

Таблица 3.1

Исходные данные для модели парной регрессии №1

 

Валовой региональный продукт на душу населения (рубль, значение показателя за год) X Покупка алкогольных напитков домашними хозяйстами в среднем на члена домохозяйства в год (рубль, значение показателя за год, Всего) Y

1997

29067,40

197,07

1998

33887,40

307,48

1999

70506,50

430,14

2000

115630,50

692,11

2001

134435,80

998,31

2002

171127,80

944,00

2003

209174,10

1143,74

2004

268390,30

1664,00

2005

381997,10

1663,00

2006

477873,00

3094,00

2007

601146,90

2678,00

2008

734242,00

2136,00

2009

628930,30

2581,00

2010

730774,20

3258,00

2011

859355,10

4336,00

2012

895017,90

5409,00

2013

980986,60

5554,00

2014

1051559,60

5536,00

2015

1102496,40

7154,00

2016

1157373,00

7460,00

 

 

Исходные данные для модели парной регрессии №2

 

Валовой региональный продукт на душу населения (рубль, значение показателя за год) X Число умерших по внешним причинам в расчете на 100000 населения за год (человек, значение показателя за год, все население) Y

1997

29067,40

147,30

1998

33887,40

152,40

1999

70506,50

163,40

2000

115630,50

133,10

2001

134435,80

132,80

2002

171127,80

128,40

2003

209174,10

119,30

2004

268390,30

107,60

2005

381997,10

99,60

2006

477873,00

95,70

2007

601146,90

89,00

2008

734242,00

81,01

2009

628930,30

71,75

2010

730774,20

61,30

2011

859355,10

56,80

2012

895017,90

56,40

2013

980986,60

51,40

2014

1051559,60

51,25

2015

1102496,40

49,03

2016

1157373,00

56,42

 

 

Исходные данные для модели парной регрессии №2

 

Валовой региональный продукт на душу населения (рубль, значение показателя за год) X Число умерших по причине новообразований в расчете на 100000 населения за год (человек, значение показателя за год, все население) Y

1997

29067,40

234,90

1998

33887,40

230,90

1999

70506,50

233,60

2000

115630,50

234,40

2001

134435,80

229,60

2002

171127,80

223,90

2003

209174,10

222,30

2004

268390,30

223,90

2005

381997,10

223,20

2006

477873,00

226,10

2007

601146,90

224,40

2008

734242,00

225,65

2009

628930,30

226,03

2010

730774,20

209,30

2011

859355,10

206,30

2012

895017,90

204,50

2013

980986,60

204,20

2014

1051559,60

207,50

2015

1102496,40

210,96

2016

1157373,00

222,80

 

В результате качественного анализа переменных и исследования корреляционного поля для моделирования парной зависимости рекомендуется выбрать линейную регрессию .

Сначала вы рассчитываете по графам 2,3,4,5 и 6 таблиц 3.3 – 3.6 следующие средние показатели:

;

,

где n число наблюдений соответствующего показателя, в нашем случае за период с 1997г. по 2016г. n = 20.

Далее мы рассчитаем коэффициенты a и b из уравнения линейной регрессии по нижеследующим формулам:

Теперь мы можем заполнить графу 7 таблиц 3.3 – 3.6. В качестве примера рассчитаем  для 1997г. Поскольку мы рассчитали коэффициенты a и b, то теперь по уравнению линейной регрессии, взяв х для 1997г. мы подсчитаем :

Далее заполняем графы 8 и 9 таблиц.

В соответствии с расчетами формируем три уравнения парной регрессии вида  и вербально (словесно) описываем полученный результат. Тесноту линейной связи необходимо оценить с помощью коэффициента корреляции. Для этого в первую очередь необходимо найти среднеквадратические отклонения х и у по формулам:

 

Далее рассчитывается коэффициент детерминации  и анализируется полученный результат. Качество модели определяется через среднюю ошибку аппроксимации:

Далее оценивается значимость уравнения в целом посредствам F -критерия:

В соответствии с таблицей критических значений F -критерия необходимо найти   для уровня значимости p = 0.05;  = 1, = n-2.

Если , то уравнение парной регрессии значимо. Теперь вы вербально (словесно) должны интерпретировать полученный результат по F -критерию.

Далее следует оценить статистическую значимость параметров регрессии посредством t- статистики Стьюдента. Выдвигаем гипотезу о равенстве показателей нулю: а=b=r=0. Следовательно, альтернативной гипотезой  будет отличие показателей от нуля.

Определите случайные ошибки:

Теперь мы можем подсчитать , , . Критические значения для числа степеней свободы f= n-2=20-2=18 и для уровня значимости p = 0,05. Нужно сравнить и  и определять какая гипотеза или  принимается.

В соответствии с полученными результатами следует осуществить прогноз результирующих показателей для регионов, и вербально (словесно)проинтерпретировать полученный результат.

Стандартная ошибка прогноза для линейного уравнения регрессии зависит от остаточной дисперсии, приходящейся на одну степень свободы, дисперсии х и насколько прогнозное значение х отклоняется от среднего значения. Величина стандартной ошибки достигает минимума при прогнозном значении и возрастает по мере того, как «удаляется» от среднего значения в любом направлении. Можно ожидать наилучшие результаты прогноза, если х находится в центре области наблюдений и нельзя ожидать хороших результатов прогноза при удалении  от . Таким образом, ошибка прогноза  рассчитывается как:

Соответственно интервальная оценка истинного прогнозного значения определяется:

По результатам расчетов следует сформировать доверительные интервалы для каждой из моделей парной регрессии и вербально (словесно) интерпретировать полученные результаты.

Для расчета параметров уравнений линейной регрессии необходимо построить расчетные таблицы следующего содержания:

 

 

Таблица 3.4

Корреляционная таблица парной регрессии и корреляции №1

x

y

xy

x^2

y^2

|y-  |

|(y-  )/y|

1997

29067,40

197,07

5,73E+06

8,45E+08

38836,58

27,91

169,16

0,86

1998

33887,40

307,48

1,04E+07

1,15E+09

94543,95

55,08

252,40

0,82

1999

70506,50

430,14

3,03E+07

4,97E+09

185020,42

261,54

168,60

0,39

2000

115630,50

692,11

8,00E+07

1,34E+10

479016,25

515,96

176,15

0,25

2001

134435,80

998,31

1,34E+08

1,81E+10

996622,86

621,98

376,33

0,38

2002

171127,80

944,00

1,62E+08

2,93E+10

891136,00

828,86

115,14

0,12

2003

209174,10

1143,74

2,39E+08

4,38E+10

1308141,19

1043,37

100,37

0,09

2004

268390,30

1664,00

4,47E+08

7,20E+10

2768896,00

1377,23

286,77

0,17

2005

381997,10

1663,00

6,35E+08

1,46E+11

2765569,00

2017,76

354,76

0,21

2006

477873,00

3094,00

1,48E+09

2,28E+11

9572836,00

2558,32

535,68

0,17

2007

601146,90

2678,00

1,61E+09

3,61E+11

7171684,00

3253,35

575,35

0,21

2008

734242,00

2136,00

1,57E+09

5,39E+11

4562496,00

4003,75

1867,75

0,87

2009

628930,30

2581,00

1,62E+09

3,96E+11

6661561,00

3410,00

829,00

0,32

2010

730774,20

3258,00

2,38E+09

5,34E+11

10614564,00

3984,20

726,20

0,22

2011

859355,10

4336,00

3,73E+09

7,38E+11

18800896,00

4709,15

373,15

0,09

2012

895017,90

5409,00

4,84E+09

8,01E+11

29257281,00

4910,22

498,78

0,09

2013

980986,60

5554,00

5,45E+09

9,62E+11

30846916,00

5394,93

159,07

0,03

2014

1051559,60

5536,00

5,82E+09

1,11E+12

30647296,00

5792,82

256,82

0,05

2015

1102496,40

7154,00

7,89E+09

1,22E+12

51179716,00

6080,01

1073,99

0,15

2016

1157373,00

7460,00

8,63E+09

1,34E+12

55651600,00

6389,41

1070,59

0,14

Итого

10633971,90

57235,85

4,68E+10

8,55E+12

264494628,25

57235,85

9966,07

5,65

Среднее

531698,60

2861,79

2,34E+09

4,28E+11

13224731,41

2861,79

498,30

0,28

Получено уравнение регрессии:

С увеличением ВРП на душу населения в регионе на 1 рубль, покупка алкогольных напитков домашними хозяйствами в среднем на члена домохозяйства в год увеличится в среднем на 0,0065 руб., значение показателя за год.

Вычислим:

Значения линейного коэффициента корреляции принадлежит промежутку [-1;1]. Связь между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

менее 0,1 отсутствует линейная связь
0,1 < rxy < 0,3: слабая;
0,3 < rxy < 0,5: умеренная;
0,5 < rxy < 0,7: заметная;
0,7 < rxy < 0,9: высокая;
0,9 < rxy < 1: весьма высокая;

   Для нашей задачи r = 0,956, что подтверждает вывод, сделанный ранее, что связь между признаками прямая, а также указывает на весьма высокую взаимосвязь между валовым региональным продуктом на душу населения и покупкой алкогольных напитков домашними хозяйствами в среднем на члена домохозяйства в год. Положительная величина свидетельствует о прямой связи между изучаемыми признаками.

Коэффициент детерминации определяется по формуле:

Вычислим:

Множественный коэффициент детерминации , показывает, что около 91,4% вариации зависимой переменной  учтено в модели и обусловлено влиянием включенного фактора  и на 8,6% — другими факторами, не включенными в модель.

Средняя ошибка аппроксимации по формуле:

Найдем величину средней ошибки аппроксимации :

.

В среднем, расчетные значения отклоняются от фактических значений на 28,26% поскольку ошибка больше 7%, то данное уравнение нежелательно использовать в качестве регрессии.

Фактическое значение F -критерия:

.

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы  и  составляет . Так как,  то уравнение регрессии признается статистически значимым.

 







Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: