В данном задании необходимо в соответствии со спецификацией и качественным анализом данных (проведенным в рамках задания №2) построить парную модель регрессии и дать её интерпретацию. Оценить качество модели через коэффициент детерминации, среднюю ошибку аппроксимации, t -критерий Стьюдента и F -критерий Фишера; выполнить прогноз уровня результирующих показателей при прогнозном значении фактора (ВРП), составляющем 110% от среднего уровня. Оценить качество прогноза, рассчитав ошибку прогноза и доверительный интервал.
В рамках данного задания необходимо, в первую очередь, сформировать три таблицы исходных данных:
Таблица 3.1
Исходные данные для модели парной регрессии №1
| Валовой региональный продукт на душу населения (рубль, значение показателя за год) X | Покупка алкогольных напитков домашними хозяйстами в среднем на члена домохозяйства в год (рубль, значение показателя за год, Всего) Y | ||
1997 | 29067,40 | 197,07 | ||
1998 | 33887,40 | 307,48 | ||
1999 | 70506,50 | 430,14 | ||
2000 | 115630,50 | 692,11
| ||
2001 | 134435,80 | 998,31 | ||
2002 | 171127,80 | 944,00 | ||
2003 | 209174,10 | 1143,74 | ||
2004 | 268390,30 | 1664,00 | ||
2005 | 381997,10 | 1663,00 | ||
2006 | 477873,00 | 3094,00 | ||
2007 | 601146,90 | 2678,00 | ||
2008 | 734242,00 | 2136,00 | ||
2009 | 628930,30 | 2581,00 | ||
2010 | 730774,20 | 3258,00 | ||
2011 | 859355,10 | 4336,00 | ||
2012 | 895017,90 | 5409,00 | ||
2013 | 980986,60 | 5554,00 | ||
2014 | 1051559,60 | 5536,00 | ||
2015 | 1102496,40 | 7154,00 | ||
2016 | 1157373,00 | 7460,00 |
Исходные данные для модели парной регрессии №2
| Валовой региональный продукт на душу населения (рубль, значение показателя за год) X | Число умерших по внешним причинам в расчете на 100000 населения за год (человек, значение показателя за год, все население) Y |
1997 | 29067,40 | 147,30 |
1998 | 33887,40 | 152,40 |
1999 | 70506,50 | 163,40 |
2000 | 115630,50 | 133,10 |
2001 | 134435,80 | 132,80 |
2002 | 171127,80 | 128,40 |
2003 | 209174,10 | 119,30 |
2004 | 268390,30 | 107,60 |
2005 | 381997,10 | 99,60 |
2006 | 477873,00 | 95,70 |
2007 | 601146,90 | 89,00 |
2008 | 734242,00 | 81,01 |
2009 | 628930,30 | 71,75 |
2010 | 730774,20 | 61,30 |
2011 | 859355,10 | 56,80 |
2012 | 895017,90 | 56,40 |
2013 | 980986,60 | 51,40 |
2014 | 1051559,60 | 51,25 |
2015 | 1102496,40 | 49,03 |
2016 | 1157373,00 | 56,42 |
Исходные данные для модели парной регрессии №2
| Валовой региональный продукт на душу населения (рубль, значение показателя за год) X | Число умерших по причине новообразований в расчете на 100000 населения за год (человек, значение показателя за год, все население) Y | ||
1997 | 29067,40 | 234,90 | ||
1998 | 33887,40 | 230,90 | ||
1999 | 70506,50 | 233,60 | ||
2000 | 115630,50 | 234,40 | ||
2001 | 134435,80 | 229,60 | ||
2002 | 171127,80 | 223,90 | ||
2003 | 209174,10 | 222,30 | ||
2004 | 268390,30 | 223,90 | ||
2005 | 381997,10 | 223,20 | ||
2006 | 477873,00 | 226,10 | ||
2007 | 601146,90 | 224,40 | ||
2008 | 734242,00 | 225,65 | ||
2009 | 628930,30 | 226,03 | ||
2010 | 730774,20 | 209,30 | ||
2011 | 859355,10 | 206,30 | ||
2012
| 895017,90 | 204,50 | ||
2013 | 980986,60 | 204,20 | ||
2014 | 1051559,60 | 207,50 | ||
2015 | 1102496,40 | 210,96 | ||
2016 | 1157373,00 | 222,80 |
В результате качественного анализа переменных и исследования корреляционного поля для моделирования парной зависимости рекомендуется выбрать линейную регрессию .
Сначала вы рассчитываете по графам 2,3,4,5 и 6 таблиц 3.3 – 3.6 следующие средние показатели:
;
,
где n число наблюдений соответствующего показателя, в нашем случае за период с 1997г. по 2016г. n = 20.
Далее мы рассчитаем коэффициенты a и b из уравнения линейной регрессии по нижеследующим формулам:
Теперь мы можем заполнить графу 7 таблиц 3.3 – 3.6. В качестве примера рассчитаем для 1997г. Поскольку мы рассчитали коэффициенты a и b, то теперь по уравнению линейной регрессии, взяв х для 1997г. мы подсчитаем :
Далее заполняем графы 8 и 9 таблиц.
В соответствии с расчетами формируем три уравнения парной регрессии вида и вербально (словесно) описываем полученный результат. Тесноту линейной связи необходимо оценить с помощью коэффициента корреляции. Для этого в первую очередь необходимо найти среднеквадратические отклонения х и у по формулам:
Далее рассчитывается коэффициент детерминации и анализируется полученный результат. Качество модели определяется через среднюю ошибку аппроксимации:
Далее оценивается значимость уравнения в целом посредствам F -критерия:
В соответствии с таблицей критических значений F -критерия необходимо найти для уровня значимости p = 0.05; = 1, = n-2.
Если , то уравнение парной регрессии значимо. Теперь вы вербально (словесно) должны интерпретировать полученный результат по F -критерию.
Далее следует оценить статистическую значимость параметров регрессии посредством t- статистики Стьюдента. Выдвигаем гипотезу о равенстве показателей нулю: а=b=r=0. Следовательно, альтернативной гипотезой будет отличие показателей от нуля.
Определите случайные ошибки:
Теперь мы можем подсчитать , , . Критические значения для числа степеней свободы f= n-2=20-2=18 и для уровня значимости p = 0,05. Нужно сравнить и и определять какая гипотеза или принимается.
В соответствии с полученными результатами следует осуществить прогноз результирующих показателей для регионов, и вербально (словесно)проинтерпретировать полученный результат.
Стандартная ошибка прогноза для линейного уравнения регрессии зависит от остаточной дисперсии, приходящейся на одну степень свободы, дисперсии х и насколько прогнозное значение х отклоняется от среднего значения. Величина стандартной ошибки достигает минимума при прогнозном значении и возрастает по мере того, как «удаляется» от среднего значения в любом направлении. Можно ожидать наилучшие результаты прогноза, если х находится в центре области наблюдений и нельзя ожидать хороших результатов прогноза при удалении от . Таким образом, ошибка прогноза рассчитывается как:
Соответственно интервальная оценка истинного прогнозного значения определяется:
По результатам расчетов следует сформировать доверительные интервалы для каждой из моделей парной регрессии и вербально (словесно) интерпретировать полученные результаты.
Для расчета параметров уравнений линейной регрессии необходимо построить расчетные таблицы следующего содержания:
Таблица 3.4
Корреляционная таблица парной регрессии и корреляции №1
x | y | xy | x^2 | y^2 | |y- | | |(y- )/y| | ||||
1997 | 29067,40 | 197,07 | 5,73E+06 | 8,45E+08 | 38836,58 | 27,91 | 169,16 | 0,86 | ||
1998 | 33887,40 | 307,48 | 1,04E+07 | 1,15E+09 | 94543,95 | 55,08 | 252,40 | 0,82 | ||
1999 | 70506,50 | 430,14 | 3,03E+07 | 4,97E+09 | 185020,42 | 261,54 | 168,60 | 0,39 | ||
2000 | 115630,50 | 692,11 | 8,00E+07 | 1,34E+10 | 479016,25 | 515,96 | 176,15 | 0,25 | ||
2001 | 134435,80 | 998,31 | 1,34E+08 | 1,81E+10 | 996622,86 | 621,98 | 376,33 | 0,38 | ||
2002 | 171127,80 | 944,00
| 1,62E+08 | 2,93E+10 | 891136,00 | 828,86 | 115,14 | 0,12 | ||
2003 | 209174,10 | 1143,74 | 2,39E+08 | 4,38E+10 | 1308141,19 | 1043,37 | 100,37 | 0,09 | ||
2004 | 268390,30 | 1664,00 | 4,47E+08 | 7,20E+10 | 2768896,00 | 1377,23 | 286,77 | 0,17 | ||
2005 | 381997,10 | 1663,00 | 6,35E+08 | 1,46E+11 | 2765569,00 | 2017,76 | 354,76 | 0,21 | ||
2006 | 477873,00 | 3094,00 | 1,48E+09 | 2,28E+11 | 9572836,00 | 2558,32 | 535,68 | 0,17 | ||
2007 | 601146,90 | 2678,00 | 1,61E+09 | 3,61E+11 | 7171684,00 | 3253,35 | 575,35 | 0,21 | ||
2008 | 734242,00 | 2136,00 | 1,57E+09 | 5,39E+11 | 4562496,00 | 4003,75 | 1867,75 | 0,87 | ||
2009 | 628930,30 | 2581,00 | 1,62E+09 | 3,96E+11 | 6661561,00 | 3410,00 | 829,00 | 0,32 | ||
2010 | 730774,20 | 3258,00 | 2,38E+09 | 5,34E+11 | 10614564,00 | 3984,20 | 726,20 | 0,22 | ||
2011 | 859355,10 | 4336,00 | 3,73E+09 | 7,38E+11 | 18800896,00 | 4709,15 | 373,15 | 0,09 | ||
2012 | 895017,90 | 5409,00 | 4,84E+09 | 8,01E+11 | 29257281,00 | 4910,22 | 498,78 | 0,09 | ||
2013 | 980986,60 | 5554,00 | 5,45E+09 | 9,62E+11 | 30846916,00 | 5394,93 | 159,07 | 0,03 | ||
2014 | 1051559,60 | 5536,00 | 5,82E+09 | 1,11E+12 | 30647296,00 | 5792,82 | 256,82 | 0,05 | ||
2015 | 1102496,40 | 7154,00 | 7,89E+09 | 1,22E+12 | 51179716,00 | 6080,01 | 1073,99 | 0,15 | ||
2016 | 1157373,00 | 7460,00 | 8,63E+09 | 1,34E+12 | 55651600,00 | 6389,41 | 1070,59 | 0,14 | ||
Итого | 10633971,90 | 57235,85 | 4,68E+10 | 8,55E+12 | 264494628,25 | 57235,85 | 9966,07 | 5,65 | ||
Среднее | 531698,60 | 2861,79 | 2,34E+09 | 4,28E+11 | 13224731,41 | 2861,79 | 498,30 | 0,28 |
Получено уравнение регрессии:
С увеличением ВРП на душу населения в регионе на 1 рубль, покупка алкогольных напитков домашними хозяйствами в среднем на члена домохозяйства в год увеличится в среднем на 0,0065 руб., значение показателя за год.
Вычислим:
Значения линейного коэффициента корреляции принадлежит промежутку [-1;1]. Связь между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
менее 0,1 отсутствует линейная связь
0,1 < rxy < 0,3: слабая;
0,3 < rxy < 0,5: умеренная;
0,5 < rxy < 0,7: заметная;
0,7 < rxy < 0,9: высокая;
0,9 < rxy < 1: весьма высокая;
Для нашей задачи r = 0,956, что подтверждает вывод, сделанный ранее, что связь между признаками прямая, а также указывает на весьма высокую взаимосвязь между валовым региональным продуктом на душу населения и покупкой алкогольных напитков домашними хозяйствами в среднем на члена домохозяйства в год. Положительная величина свидетельствует о прямой связи между изучаемыми признаками.
|
|
Коэффициент детерминации определяется по формуле:
Вычислим:
Множественный коэффициент детерминации , показывает, что около 91,4% вариации зависимой переменной учтено в модели и обусловлено влиянием включенного фактора и на 8,6% — другими факторами, не включенными в модель.
Средняя ошибка аппроксимации по формуле:
Найдем величину средней ошибки аппроксимации :
.
В среднем, расчетные значения отклоняются от фактических значений на 28,26% поскольку ошибка больше 7%, то данное уравнение нежелательно использовать в качестве регрессии.
Фактическое значение F -критерия:
.
Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет . Так как, то уравнение регрессии признается статистически значимым.