ДОМАШНЕЕ ЗАДАНИЕ №1
ПАРНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
Для группы регионов заданы значения трех признаков. Требуется:
1. Для каждой пары признаков Y и Xi (i = 1, 2, 3) рассчитать параметры линейной регрессионной модели , построить модели на корреляционных полях.
2. Оценить каждую регрессионную модель через среднюю ошибку аппроксимации и F-критерий Фишера, t-критерий Стьюдента.
3. Для каждой пары признаков найти коэффициент корреляции, коэффициент детерминации.
4. Выполнить прогноз признака Y при прогнозном значении X1, составляющем 105% от среднего уровня, оценить точность прогноза по стандартной ошибке и доверительному интервалу.
5. Определить с помощью коэффициентов эластичности силу влияния каждого признака Xi на результирующий признак Y, ранжировать признаки Xi по силе влияния.
Результаты анализа оформить в виде аналитической записки.
Исходные данные. Вариант 10.
Y | X1 | X2 | X3 | ||
Все преступления экономической направленности - число зарегистрированных преступлений на 100 тыс населения региона | Объем промышленного пр-ва на душу населения | Продукция с/х(хоз.всех катег) на душу населения | Доля городского населения в общей численности постоянного населения(%) | ||
1 | Владимирская область | 215,67 | 14,63 | 4,76 | 80,5 |
2 | Ивановская область | 283,15 | 8,08 | 3,03 | 82,4 |
3 | Калужская область | 217,77 | 10,97 | 5,34 | 74,4 |
4 | Тверская область | 165,59 | 11,45 | 4,52 | 73,5 |
5 | Тульская область | 207,63 | 15,75 | 4,89 | 81,5 |
6 | Ярославская область | 224,41 | 13,61 | 5,08 | 80,5 |
7 | Северная Осетия-Алания | 200,89 | 4,61 | 3,30 | 68,6 |
8 | Астраханская область | 293,78 | 10,38 | 2,57 | 66,8 |
9 | Волгоградская область | 238,3 | 15,28 | 4,81 | 74,1 |
10 | Удмуртская Республика | 118,72 | 10,09 | 5,41 | 69,5 |
11 | Нижегородская область | 209,74 | 19,76 | 3,47 | 78,3 |
12 | Саратовская область | 170,66 | 11,18 | 4,70 | 73,2 |
13 | Омская область | 164,97 | 7,80 | 5,24 | 67,3 |
14 | Томская область | 261,22 | 14,50 | 3,94 | 66,8 |
15 | Читинская область | 181,51 | 5,64 | 3,84 | 62,7 |
16 | Еврейская авт,область | 229,59 | 4,27 | 3,19 | 67,6 |
17 | Коми Респ. | 348,05 | 10,05 | 3,15 | 74,2 |
18 | Самарская область | 245,99 | 14,59 | 5,54 | 80,4 |
|
|
Решение
1. Построим уравнения парной линейной регрессии вида для пар переменных y, x1, y, x2 и y, x3.
Параметры b0 и b1 уравнения линейной регрессии рассчитываются методом наименьших квадратов путем решения системы нормальных уравнений:
Для нахождения параметров b0 и b1 используем ППП «Анализ данных» MS Excel. Результаты расчетов приведены в приложениях 1, 2, 3.
Уравнения регрессии имеют вид:
Для пары признаков y, x1
. (1)
На приведенных рисунках подпишите оси координат и оформите легенду
Рис. 1. Прямая линия регрессии
|
|
на корреляционном поле
Для пары признаков y, x2:
. (2)
Рис. 2. Линия регрессии на корреляционном поле
Для пары признаков y, x3:
. (3)
Рис. 3. Линия регрессии на корреляционном поле
2. Оценим каждое уравнение регрессии через среднюю ошибку аппроксимации и F-критерий Фишера, t-критерий Стьюдента.
Найдем среднюю относительную ошибку аппроксимации по формуле:
.
Для вычисления составим расчетные таблицы (см. приложения 4, 5, 6).
, , .
Т.к. значения средней относительной ошибки аппроксимации для всех уравнений находятся в пределах от 10% до 20%, все уравнения имеют хорошую точность.
Исследование статистической значимости уравнения регрессии в целом проводится с помощью F-критерия Фишера. Выдвинем гипотезу Н0 о том, что уравнение в целом статистически незначимо, при конкурирующей гипотезе Н1: уравнение в целом статистически значимо. Расчетное значение критерия находится по формуле:
.
Для парного уравнения p = 1.
Табличное (теоретическое) значение критерия находится по таблице критических значений распределения Фишера-Снедекора по уровню значимости по уровню значимости α и двум числам степеней свободы k 1 = p = 1 и k 2 = n - p - 1 = 16.
.
Если Fрасч<Fтабл, (4)
то гипотеза Н0 принимается, а уравнение линейной регрессии в целом считается статистически незначимым (с вероятностью ошибки 5%).
Для уравнения (1) Fрасч = 0,10, неравенство (4) выполняется. Принимается гипотеза Н0. Уравнение в целом статистически незначимо.
Для уравнения (2) Fрасч = 7,59, неравенство (4) не выполняется. Принимается гипотеза Н1. Уравнение в целом статистически значимо.
Для уравнения (3) Fрасч = 0,69, неравенство (4) выполняется. Принимается гипотеза Н0.Уравнение в целом статистически незначимо.
Для статистически значимого линейного уравнения регрессии проверяется статистическая значимость оценок его параметров b0, b1 с помощью t‑критерия Стъюдента. Выдвигается гипотеза Н0: параметр bj = 0 (j = 0, 1) (статистически незначим, случайно отличается от 0), при конкурирующей гипотезе Н1: параметр bj ≠ 0 (статистически значим, неслучайно отличается от 0). Находится расчетное значение критерия
,
где средние квадратические ошибки параметров bj равны
,
.
Теоретическое значение критерия tтабл находится по таблице критических значений распределения Стъюдента по уровню значимости α и числу степеней свободы k = n - p - 1. Если t bj > tтабл, то гипотеза Н 0 отвергается с вероятность ошибки α, т.е. оценка коэффициента регрессии b j признается статистически значимой, в противном случае (t bj < tтабл) - незначимой.
Табличное значение критерия для уровня значимости α=0,05 и числа степеней свободы k = n - 2 = 16 равно.
Найдем доверительные интервалы для параметров b0 и b1 уравнения (1).
∆b0= tтабл·mb0=1,746·38,457=67,147;
∆b1 = tтабл·mb1 =1,746·3,213=5,610.
Сами доверительные интервалы имеют вид:
;
.
Для уравнений (2) и (3) расчеты проводятся аналогично.
Результаты расчетов (см. приложения 1, 2, 3) приведены в таблицах 1, 2, 3.
Таблица 1.
Проверка критерия Стъюдента
Уравнение регрессии | ||||||
Параметр уравнения b j | Среднеквадратическая ошибка параметра | Расчетное значение критерия | Табличное значение критерия tтабл | Вывод о статистической значимости | Границы доверительных интервалов | |
левая | правая | |||||
b0 | 38,46 | 5,45 | 1,75 | значим | 142,26 | 276,55 |
b1 | 3,21 | 0,32 | незначим | -4,58 | 6,64 |
Доверительный интервал для параметра b1 имеет разные знаки, что подтверждает вывод критерия Стъюдента о его статистической незначимости.
|
|
Таблица 2.
Проверка критерия Стъюдента Заполните таблицу самостоятельно
Уравнение регрессии | ||||||
Параметр уравнения b j | Среднеквадратическая ошибка параметра | Расчетное значение критерия | Табличное значение критерия tтабл | Вывод о статистической значимости | Границы доверительных интервалов | |
левая | правая | |||||
b0 | 1,75 | |||||
b1 |
Таблица 3.
Проверка критерия Стъюдента Заполните таблицу самостоятельно
Уравнение регрессии | ||||||
Параметр уравнения b j | Среднеквадратическая ошибка параметра | Расчетное значение критерия | Табличное значение критерия tтабл | Вывод о статистической значимости | Границы доверительных интервалов | |
левая | правая | |||||
b0 | 1,75 | значим | ||||
b1 | незначим |
3. Коэффициент корреляции находится по формуле:
Из таблицы «Вывод итогов» (см. приложение 1)
. Следовательно, между показателями y и x1 практически нет линейной связи.
Для признаков y и x2 r = 0,57, следовательно, между признаками существует прямая регрессионная зависимость средней силы.
Для y и x3 r = 0,20, следовательно, между признаками существует прямая слабая регрессионная зависимость.
Коэффициент детерминации для пары признаков y и x1:
.
Т.е. всего 0,64% изменчивости y объясняется показателем x1.
Для признаков y и x2 R2 = 0,32, следовательно, 32% вариации y объясняется влиянием показателя x2.
Для y и x3 R2 = 0,04, Т.е. всего 4% изменчивости y объясняется показателем x3.
4. Найдем прогнозное значение yпр путем подстановки значения x1пр в уравнение регрессии
.
xпр = 11,27*1,05 = 11,82
Стандартную ошибку прогноза найдем по формуле
= 56,96
Доверительный интервал прогнозного значения имеет вид
, или
(122,11; 321,01).
Результаты расчетов приведены в приложении 4.
5. Определим с помощью коэффициентов эластичности силу влияния признаков xj на результирующий признак y.
Для парного линейного уравнения регрессии средний коэффициент эластичности находится по формуле:
Для признаков y и x1 уравнение регрессии имеет вид
|
|
.
Фактор «Объём промышленного производства на долю населения» (X1) оказывает слабое влияние на величину экономической преступности (Y): при его росте на 1% среднее число совершаемых экономических преступлений увеличивается всего на 0,05%.
Частные коэффициенты эластичности находятся по формулам
.
Расчеты эластичности приведены в приложениях 4, 5, 6 и в итоговой таблице 4.
Таблица 4.
Частные коэффициенты эластичности | |||||
Эiлинейн | Эiстеп | Эiпоказ | Эiгиперб | ||
1 | -0,25 | ||||
2 | -0,36 | ||||
3 | -0,35 | ||||
4 | -0,39 | ||||
5 | -0,36 | ||||
6 | -0,27 | ||||
7 | -0,33 | ||||
8 | |||||
9 | |||||
10 | |||||
11 | |||||
12 | |||||
13 | |||||
14 | |||||
15 | |||||
16 | |||||
17 | |||||
18 | |||||
Средний коэффициент эластичности | -0,33 |
Самостоятельно сделайте вывод по значениям коэффициентов эластичности (средним и частным), в котором ответьте на вопросы:
- какой признак оказывает на y самое большое влияние, какой – наименьшее, как при этом изменяется ;
- какие региональные особенности можно выделить на основе частных коэффициентов эластичности.
Вид регрессионного уравнения | Аср | Fрасч | R^2скор |
Линейное | |||
Степенное | |||
Показательнее | |||
Гиперболическое |
Приложение 4.
Расчетная таблица
| y,x1 |
|
|
|
|
|
|
|
| yi | x1i | yiтеор | ABS((yi-yiтеор)/yi) | (yi-yiтеор)^2 | (x1i-x1ср)^2 | Эi | |
1 | Владимирская область | 215,67 | 14,63 | 224,45 | 0,04 | 77,10 | 11,39 | 0,07 |
2 | Ивановская область | 283,15 | 8,08 | 217,72 | 0,23 | 4281,57 | 10,07 | 0,04 |
3 | Калужская область | 217,77 | 10,97 | 220,68 | 0,01 | 8,49 | 0,08 | 0,05 |
4 | Тверская область | 165,59 | 11,45 | 221,18 | 0,34 | 3089,96 | 0,04 | 0,05 |
5 | Тульская область | 207,63 | 15,75 | 225,60 | 0,09 | 322,95 | 20,19 | 0,07 |
6 | Ярославская область | 224,41 | 13,61 | 223,40 | 0,00 | 1,02 | 5,54 | 0,06 |
7 | Северная Осетия-Алания Респ. | 200,89 | 4,61 | 214,14 | 0,07 | 175,67 | 44,19 | 0,02 |
8 | Астраханская область | 293,78 | 10,38 | 220,07 | 0,25 | 5432,45 | 0,77 | 0,05 |
9 | Волгоградская область | 238,30 | 15,28 | 225,11 | 0,06 | 173,93 | 16,14 | 0,07 |
10 | Удмуртская Республика | 118,72 | 10,09 | 219,78 | 0,85 | 10212,98 | 1,36 | 0,05 |
11 | Нижегородская область | 209,74 | 19,76 | 229,72 | 0,10 | 399,19 | 72,23 | 0,09 |
12 | Саратовская область | 170,66 | 11,18 | 220,90 | 0,29 | 2524,37 | 0,01 | 0,05 |
13 | Омская область | 164,97 | 7,80 | 217,42 | 0,32 | 2751,06 | 11,98 | 0,04 |
14 | Томская область | 261,22 | 14,50 | 224,31 | 0,14 | 1362,40 | 10,48 | 0,07 |
15 | Читинская область | 181,51 | 5,64 | 215,20 | 0,19 | 1135,23 | 31,56 | 0,03 |
16 | Еврейская авт,область | 229,59 | 4,27 | 213,80 | 0,07 | 249,45 | 48,80 | 0,02 |
17 | Коми Респ. | 348,05 | 10,05 | 219,74 | 0,37 | 16463,18 | 1,45 | 0,05 |
18 | Самарская область | 245,99 | 14,59 | 224,41 | 0,09 | 465,78 | 11,11 | 0,07 |
| Сумма | 3977,64 | 202,64 | 3977,64 | 3,50 | 49126,79 | 297,41 |
|
| Среднее значение | 220,98 | 11,26 | 220,98 | 0,19 |
|
| 0,05 |
|
|
|
|
|
|
|
|
|
| xпр= | 11,82 | yпр= | 221,56 | myпр= | 56,96 | tα= | 1,75 |
|
|
| доверительный интервал прогноза | (122,11 | 321,01) |
|
Приложение 5.
Расчетная таблица
| y,x2 |
|
|
|
|
|
| yi | X2i | yiтеор | ABS((yi-yiтеор)/yi) | Эi | |
1 | Владимирская область | 215,67 | 4,76 | 205,14 | 0,05 | -0,74 |
2 | Ивановская область | 283,15 | 3,03 | 260,54 | 0,08 | -0,37 |
3 | Калужская область | 217,77 | 5,34 | 186,59 | 0,14 | -0,92 |
4 | Тверская область | 165,59 | 4,52 | 212,97 | 0,29 | -0,68 |
5 | Тульская область | 207,63 | 4,89 | 200,88 | 0,03 | -0,78 |
6 | Ярославская область | 224,41 | 5,08 | 194,94 | 0,13 | -0,83 |
7 | Северная Осетия-Алания Респ. | 200,89 | 3,30 | 251,92 | 0,25 | -0,42 |
8 | Астраханская область | 293,78 | 2,57 | 275,18 | 0,06 | -0,30 |
9 | Волгоградская область | 238,30 | 4,81 | 203,68 | 0,15 | -0,76 |
10 | Удмуртская Республика | 118,72 | 5,41 | 184,25 | 0,55 | -0,94 |
11 | Нижегородская область | 209,74 | 3,47 | 246,62 | 0,18 | -0,45 |
12 | Саратовская область | 170,66 | 4,70 | 207,02 | 0,21 | -0,73 |
13 | Омская область | 164,97 | 5,24 | 189,71 | 0,15 | -0,89 |
14 | Томская область | 261,22 | 3,94 | 231,34 | 0,11 | -0,55 |
15 | Читинская область | 181,51 | 3,84 | 234,55 | 0,29 | -0,52 |
16 | Еврейская авт,область | 229,59 | 3,19 | 255,35 | 0,11 | -0,40 |
17 | Коми Респ. | 348,05 | 3,15 | 256,62 | 0,26 | -0,39 |
18 | Самарская область | 245,99 | 5,54 | 180,35 | 0,27 | -0,98 |
| Сумма | 3977,64 | 76,81 | 3977,64 | 3,32 |
|
| Среднее значение | 220,98 | 4,27 | 220,98 | 0,18 | -0,62 |
Приложение 6.
Расчетная таблица
| y,x3 |
|
|
|
|
|
| yi | х3i | yiтеор | ABS((yi-yiтеор)/yi) | Эi | |
1 | Владимирская область | 215,67 | 80,50 | 233,61 | 0,08 | 0,62 |
2 | Ивановская область | 283,15 | 82,40 | 237,02 | 0,16 | 0,62 |
3 | Калужская область | 217,77 | 74,40 | 222,66 | 0,02 | 0,60 |
4 | Тверская область | 165,59 | 73,50 | 221,05 | 0,33 | 0,60 |
5 | Тульская область | 207,63 | 81,50 | 235,41 | 0,13 | 0,62 |
6 | Ярославская область | 224,41 | 80,50 | 233,61 | 0,04 | 0,62 |
7 | Северная Осетия-Алания Респ. | 200,89 | 68,60 | 212,26 | 0,06 | 0,58 |
8 | Астраханская область | 293,78 | 66,80 | 209,03 | 0,29 | 0,57 |
9 | Волгоградская область | 238,30 | 74,10 | 222,13 | 0,07 | 0,60 |
10 | Удмуртская Республика | 118,72 | 69,50 | 213,87 | 0,80 | 0,58 |
11 | Нижегородская область | 209,74 | 78,30 | 229,66 | 0,09 | 0,61 |
12 | Саратовская область | 170,66 | 73,20 | 220,51 | 0,29 | 0,60 |
13 | Омская область | 164,97 | 67,30 | 209,92 | 0,27 | 0,58 |
14 | Томская область | 261,22 | 66,80 | 209,03 | 0,20 | 0,57 |
15 | Читинская область | 181,51 | 62,70 | 201,67 | 0,11 | 0,56 |
16 | Еврейская авт,область | 229,59 | 67,60 | 210,46 | 0,08 | 0,58 |
17 | Коми Респ. | 348,05 | 74,20 | 222,31 | 0,36 | 0,60 |
18 | Самарская область | 245,99 | 80,40 | 233,43 | 0,05 | 0,62 |
| Сумма | 3977,64 | 1322,30 | 3977,64 | 3,46 |
|
| Среднее значение | 220,98 | 73,46 | 220,98 | 0,19 | 0,60 |