double arrow

МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

2

 

Пример 1. По территориям региона приводятся данные за 199X г.
(таб. 1.1).

Таблица 1.1

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x Среднедневная заработная плата, руб., y
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задания:

1. Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость и построить для него доверительный интервал с уровнем значимости a=0,05.

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05.


Решение

1. Для определения степени тесноты связи обычно используют линейный коэффициент корреляции:

,                                              

где ,  – выборочные дисперсии переменных x и y,  – ковариация признаков. Соответствующие средние определяются по формулам:

,                                                ,                                   
,                                            .                                     

Для расчета коэффициента корреляции (1.1) строим расчетную таблицу (табл. 1.2):

Таблица 1.2

  x y xy x2 y2 e2
1 78 133 10374 6084 17689 148,77 -15,77 248,70
2 82 148 12136 6724 21904 152,45 -4,45 19,82
3 87 134 11658 7569 17956 157,05 -23,05 531,48
4 79 154 12166 6241 23716 149,69 4,31 18,57
5 89 162 14418 7921 26244 158,89 3,11 9,64
6 106 195 20670 11236 38025 174,54 20,46 418,52
7 67 139 9313 4489 19321 138,65 0,35 0,13
8 88 158 13904 7744 24964 157,97 0,03 0,00
9 73 152 11096 5329 23104 144,17 7,83 61,34
10 87 162 14094 7569 26244 157,05 4,95 24,46
11 76 159 12084 5776 25281 146,93 12,07 145,70
12 115 173 19895 13225 29929 182,83 -9,83 96,55
Итого 1027 1869 161808 89907 294377   0 1574,92
Среднее значение 85,58 155,75 13484,00 7492,25 24531,42      

По данным таблицы находим:

, ,

, ,

, ,

, ,

,. .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость.

Для оценки статистической значимости коэффициента корреляции рассчитывают двухсторонний t-критерий Стьюдента:

,                                                      

который имеет распределение Стьюдента с k = n –2 и уровнем значимости a.

В нашем случае

  и   .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

       Для значимого коэффициента можно построить доверительный интервал, который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера:

                                                     

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием  и дисперсией . Поэтому вначале строят доверительный интервал для M[ z ], а затем делают обратное
z -преобразование.

Применяя z -преобразование для найденного коэффициента корреляции, получим

.

Доверительный интервал для M(z) будет иметь вид

,                                          

где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g=1,96. Тогда

,

или

.

Обратное z -преобразование осуществляется по формуле

                                                    

В результате находим

.

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

,                                                           

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b0 и b1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

,                                                              

где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических  была минимальной:

,                          

где  – отклонения yi от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных (1.12) является равенство нулю ее частных производных по неизвестным параметрам b0 и b1. В результате получаем систему нормальных уравнений:

                                                        

Решая систему (1.13), найдем

,                                                           

.                                                 

По данным таблицы (1.2) находим

;

.

Получено уравнение регрессии:

.                                                   

Параметр b 1 называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Рис. 1.1

Отметим, что уравнение регрессии (1.16) можно получить матричным способом, что особенно удобно при компьютерном моделировании подобных процессов. Введем следующие матрицы

, , .

Тогда коэффициенты множественной регрессии можно найти следующим образом:

.

Здесь матрицы перемножались с пользованием программы MathCAD.

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки статистической значимости каждого коэффициента регрессии. Для этого вычислим сначала стандартную ошибку регрессии

.                                              (1.17)

В нашем случае

.

Значимость коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента:

,                                                          (1.18)

где  – стандартная ошибка коэффициента регрессии.

Для коэффициента b 1 оценку дисперсии можно получить по формуле:

.                                                          (1.19)

В нашем случае

Следовательно,

.

Отметим, что для парной линейной регрессии t -критерий для коэффициента корреляции rxy и коэффициента регрессии b 1 совпадают.

Для коэффициента b 0 оценку дисперсии можно получить по формуле:

.                                                          (1.20)

Тогда

Критическое значение критерия было уже найдено . Поскольку  и , то коэффициенты регрессии значимо отличаются от нуля. Следовательно, для них можно построить доверительные интервалы.

Отметим, что оценки (1.19) и (1.20) также можно получить матричным способом:

,

где . Отсюда получаем, что  и .

Определим предельные ошибки для каждого показателя:

,

где . В нашем случае

.

В результате, получаем следующие доверительные интервалы для коэффициентов регрессии:

и ,

или

и .

Замечание. Задачи регрессионного анализа можно решать с использованием компьютеров. Например, можно использовать программу Excel. Для этого достаточно ввести свои данные и использовать пакет Анализ данных. Опишем кратко последовательность действий:

1) Проверьте доступ к пакету анализа. В главном меню последовательно выберите Сервис / Надстройки. Установите флажок Пакет анализа.

2) В главном меню выберите Сервис / Анализ данных / Регрессия. Щелкните по кнопке ОК.

3) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон столбцов, содержащие значения факторов независимых признаков.

Результаты регрессионного анализа представлены в таблице 1.3.

Отметим, что в компьютерных программах вычисляется не критическое значение критерия, допустим Tкрит, а вероятность . Если P <a, то нет оснований отклонять нулевую гипотезу, если P >a, то нулевая гипотеза отклоняется.

Таблица 1.3

ВЫВОД ИТОГОВ

 

 

 

 

 

 

Регрессионная статистика

 

 

 

 

 

Множественный R

0,721025214

 

 

 

 

R-квадрат

0,519877359

 

 

 

 

 

Нормированный
R-квадрат

0,471865095

 

 

 

 

 

Стандартная ошибка

12,5495908

 

 

 

 

 

Наблюдения

12

 

 

 

 

 

ДИСПЕРСИОННЫЙ АНАЛИЗ

 

 

 

 

 

df

SS

MS

F

Значимость F

 

Регрессия

1

1705,327706

1705,327706

10,82801173

0,008141843

 

Остаток

10

1574,922294

157,4922294

 

 

 

Итого

11

3280,25

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

76,9764852

24,21156138

3,179327594

0,0098300668

23,02975528

130,9232151

Переменная X 1

0,920430553

0,279715587

3,290594434

0,008141843

0,29718579

1,543675827

               

3. Оценку качества построенной модели дает коэффициент детерминации.

Коэффициент детерминации для линейной модели равен квадрату коэффициента корреляции

Это означает, что 52% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.

Значимость уравнения регрессии проверяется при помощи F -критерия Фишера, для линейной парной регрессии он будет иметь вид

,                                                        (1.21)

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1=1 и k 2= n –2.

В нашем случае

.

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством .

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение yp определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения xp. В нашем случае прогнозное значение прожиточного минимума составит: , тогда прогнозное значение прожиточного минимума составит:

Средняя стандартная ошибка прогноза вычисляется по формуле:

.                                         (1.22)

В нашем случае

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

.

Доверительный интервал прогноза

,

или

.

Выполненный прогноз среднемесячной заработной платы оказался надежным (g=0,95), но неточным, т.к. относительная точность прогноза составила 29,4/161,2×100%=18,2%.




Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  


2

Сейчас читают про: