Пример выполнения индивидуального задания. По территориям региона приводятся данные
Номер региона | Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x | Среднедневная заработная плата, руб., y |
Требуется:
1. Построить линейное уравнение парной регрессии y по x.
2. Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F-критерия Фишера и t-критерия Стьюдента.
4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 105% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
6. На одном графике отложить исходные данные и теоретическую прямую.
|
|
Решение:
1. Для расчета параметров уравнения линейной регрессии построим расчетную таблицу
№ | |||||
Сумма | |||||
87,08 | |||||
135,42 | |||||
11915,5 | |||||
7697,92 | |||||
114,41 | |||||
18542, 75 |
Составим уравнение регрессии
С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастет в среднем на 1,07руб.
2. Найдем коэффициент корреляции
Так как значение коэффициента корреляции больше 0,803, то это говорит о наличии высокой тесноты связи между признаками.
Найдем коэффициент детерминации по формуле
Для удобства вычислений строим таблицу
№ | |||||||
-13.42 | 180.01 | 135.09 | -0.33 | 0.11 | |||
-1.42 | 2.01 | 146.49 | 11.07 | 122.62 | |||
0.58 | 0.34 | 133.19 | -2.23 | 4.96 | |||
-10.42 | 108.51 | 142.69 | 7.27 | 52.90 | |||
-15.42 | 237.67 | 139.84 | 4.42 | 19.57 | |||
-8.42 | 70.84 | 132.24 | -3.18 | 10.09 | |||
-10.42 | 108.51 | 139.84 | 4.42 | 19.57 | |||
12.58 | 158.34 | 149.34 | 13.92 | 193.86 | |||
-13.42 | 180.01 | 135.09 | -0.33 | 0.11 | |||
21.58 | 465.84 | 153.14 | 17.72 | 314.12 | |||
8.58 | 73.67 | 136.99 | 1.57 | 2.48 | |||
29.58 | 875.17 | 169.29 | 33.87 | 1147.40 | |||
Сумма | 2460,92 | 1713,23 | 1887,77 | ||||
135,42 |
|
|
Это означает, что 77% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.
Качество модели определяет средняя ошибка аппроксимации
Для удобства расчетов строим таблицу
13.09 | 0.11 | 10.73 |
12.49 | 0.09 | 9.32 |
-2.81 | -0.02 | 2.07 |
17.69 | 0.14 | 14.15 |
19.84 | 0.17 | 16.53 |
5.24 | 0.04 | 4.13 |
14.84 | 0.12 | 11.87 |
1.34 | 0.01 | 0.91 |
13.09 | 0.11 | 10.73 |
-3.86 | -0.02 | 2.46 |
-7.01 | -0.05 | 4.87 |
4.29 | 0.03 | 2.60 |
сумма | 90,36 |
Так как средняя ошибка аппроксимации не должна превышать 8-10%, а в нашем случае, это 7,53%, то качество модели оценивается как хорошее.
3. Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F-критерия Фишера и t-критерия Стьюдента.
Уравнение регрессии значимо на уровне , если
и
Найдем табличное значение F-критерия Фишера – . Так как то уравнение регрессии значимо.
В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка и .
Стандартная ошибка коэффициента регрессии определяется по формуле:
где
выборочная остаточная дисперсия.
№ | ||||||
135.09 | 13.09 | -8.08 | 65.34 | |||
146.49 | 12.49 | 3.92 | 15.34 | |||
133.19 | -2.81 | -10.08 | 101.67 | |||
142.69 | 17.69 | -0.08 | 0.01 | |||
139.84 | 19.84 | -3.08 | 9.51 | |||
132.24 | 5.24 | -11.08 | 122.84 | |||
139.84 | 14.84 | -3.08 | 9.51 | |||
149.34 | 1.34 | 6.92 | 47.84 | |||
135.09 | 13.09 | -8.08 | 65.34 | |||
153.14 | -3.86 | 10.92 | 119.17 | |||
136.99 | -7.01 | -6.08 | 37.01 | |||
169.29 | 4.29 | 27.92 | 779.34 | |||
Сумма | 1372,92 | |||||
87,08 |
Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции :
Вычисляем значения t-критерия Стьюдента:
Найдем фактическое значение t-критерия для числа степеней свободы равному 10 и уровню значимости
Так как , , , поэтому параметры , не случайно отличаются от нуля, а статистически значимы.
Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя.
Доверительные интервалы:
Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в указанных границах, не принимают нулевых значений, т. е. являются статистически значимыми и существенно отличны от нуля.
4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит: руб., тогда индивидуальное прогнозное значение заработной платы составит:
руб.
5. Ошибка прогноза составит:
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит
Доверительный интервал прогноза
Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 117,84 руб. до 152,99 руб.
6. В заключении решения задачи построим на одном графике исходные данные и теоретическую прямую.