Тема 2. Множественная регрессия и корреляция

Тема 1. Парная регрессия и корреляция

1. Предварительно ознакомиться с теоретическим материалом:

Л1 [Гл. 2], Л2 [Гл. 1], Л3 [Гл. 1, 3, 5].

Примеры с решениями.

Пример 1. По территориям региона приводятся данные за календарный год (см. табл. 1).

Таблица 1

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x Среднедневная Заработная плата, руб., y
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Требуется:

1. Построить линейное уравнение парной регрессии y от x.

2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции с помощью F -критерия Фишера и t -критерия Стьюдента.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

Решение:

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2.

;

.

Получим уравнение регрессии: .

С увеличением среднедушевого прожиточного минимума на 100 руб. среднедневная заработная плата возрастает в среднем на 89 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

;

Коэффициент детерминации при этом составит:

.

Это означает, что 51% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

.


Таблица 2

  x y yx
1 78 133 10374 6084 17689 149 ‑16 12,0
2 82 148 12136 6724 21904 152 ‑4 2,7
3 87 134 11658 7569 17956 157 ‑23 17,2
4 79 154 12166 6241 23716 150 4 2,6
5 89 162 14418 7921 26244 159 3 1,9
6 106 195 20670 11236 38025 174 21 10,8
7 67 139 9313 4489 19321 139 0 0,0
8 88 158 13904 7744 24964 158 0 0,0
9 73 152 11096 5329 23104 144 8 5,3
10 87 162 14094 7569 26244 157 5 3,1
11 76 159 12084 5776 25281 147 12 7,5
12 115 173 19895 13225 29929 183 ‑10 5,8
Итого 1027 1869 161808 89907 294377 1869 0 68,9
Среднее значение 85,6 155,8 13484,0 7492,3 24531,4 5,7
12,84 16,05
164,94 257,76

Качество построенной модели оценивается как хорошее, так как  не превышает 8-10%.

3. Оценку значимости уравнения регрессии в целом проведем с помощью F -критерия Фишера. Фактическое значение F -критерия:

.

Табличное значение критерия при пятипроцентном уровне значимости  и степенях свободы  и  составляет . Так как , то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью t -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значение t -критерия для числа степеней свободы  и  составит .

Определим случайные ошибки , , :

;

;

.

Тогда

;

;

.

Фактические значения -статистики превосходят табличное значение:

; ; ,

поэтому параметры a, b и  не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии a и b. Для этого определим предельную ошибку для каждого показателя:

;

.

Доверительные интервалы

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью  параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:  руб., тогда прогнозное значение заработной платы составит:  руб.

5. Ошибка прогноза составит:

.

Предельная ошибка прогноза, которая в  случаев не будет превышена, составит:

.

Доверительный интервал прогноза:

;

 руб.;

 руб.

Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 131,66 руб. до 190,62 руб.

6. Построим на одном графике исходные данные и теоретическую прямую (рис. 1):


Рис. 1.



Тема 2. Множественная регрессия и корреляция

1. Предварительно ознакомиться с теоретическим материалом:

Л1 [Гл. 3], Л2 [Гл. 2], Л3 [Гл. 4].

Примеры с решениями.

Пример. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов  (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих  (%).

Номер предприятия y Номер предприятия y
1 7,0 3,9 10,0 11 9,0 6,0 21,0
2 7,0 3,9 14,0 12 11,0 6,4 22,0
3 7,0 3,7 15,0 13 9,0 6,8 22,0
4 7,0 4,0 16,0 14 11,0 7,2 25,0
5 7,0 3,8 17,0 15 12,0 8,0 28,0
6 7,0 4,8 19,0 16 12,0 8,2 29,0
7 8,0 5,4 19,0 17 12,0 8,1 30,0
8 8,0 4,4 20,0 18 12,0 8,5 31,0
9 8,0 5,3 20,0 19 14,0 9,6 32,0
10 10,0 6,8 20,0 20 14,0 9,0 36,0

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью F -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частных F -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора  после  и фактора  после .

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Решение:

Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:

y
1 2 3 4 5 6 7 8 9 10
1 7,0 3,9 10,0 27,3 70,0 39,0 49,0 15,21 100,0
2 7,0 3,9 14,0 27,3 98,0 54,6 49,0 15,21 196,0
3 7,0 3,7 15,0 25,9 105,0 55,5 49,0 13,69 225,0
4 7,0 4,0 16,0 28,0 112,0 64,0 49,0 16,0 256,0
5 7,0 3,8 17,0 26,6 119,0 64,6 49,0 14,44 289,0
6 7,0 4,8 19,0 33,6 133,0 91,2 49,0 23,04 361,0
7 8,0 5,4 19,0 43,2 152,0 102,6 64,0 29,16 361,0
8 8,0 4,4 20,0 35,2 160,0 88,0 64,0 19,36 400,0
9 8,0 5,3 20,0 42,4 160,0 106,0 64,0 28,09 400,0
10 10,0 6,8 20,0 68,0 200,0 136,0 100,0 46,24 400,0
11 9,0 6,0 21,0 54,0 189,0 126,0 81,0 36,0 441,0
12 11,0 6,4 22,0 70,4 242,0 140,8 121,0 40,96 484,0
13 9,0 6,8 22,0 61,2 198,0 149,6 81,0 46,24 484,0
14 11,0 7,2 25,0 79,2 275,0 180,0 121,0 51,84 625,0
15 12,0 8,0 28,0 96,0 336,0 224,0 144,0 64,0 784,0
16 12,0 8,2 29,0 98,4 348,0 237,8 144,0 67,24 841,0
17 12,0 8,1 30,0 97,2 360,0 243,0 144,0 65,61 900,0
18 12,0 8,5 31,0 102,0 372,0 263,5 144,0 72,25 961,0
19 14,0 9,6 32,0 134,4 448,0 307,2 196,0 92,16 1024,0
20 14,0 9,0 36,0 126,0 504,0 324,0 196,0 81,0 1296,0
Сумма 192 123,8 446 1276,3 4581 2997,4 1958,0 837,74 10828,0
Средн. знач. 9,6 6,19 22,3 63,815 229,05 149,87 97,9 41,887 541,4

Найдем средние квадратические отклонения признаков:

;

;

.

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии

необходимо решить следующую систему линейных уравнений относительно неизвестных параметров a, , :

либо воспользоваться готовыми формулами:

; ; .

Рассчитаем сначала парные коэффициенты корреляции:

;

;

.

Находим

;

;

.

Таким образом, получили следующее уравнение множественной регрессии:

.

Коэффициенты  и  стандартизованного уравнения регрессии  находятся по формулам:

;

.

Т.е. стандартизованное уравнение будет выглядеть следующим образом:

.

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

.

Вычисляем:

; .

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61% или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора , чем фактора .

2. Коэффициенты парной корреляции мы уже нашли:

; ; .

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы  и  явно коллинеарны, т.к. . При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

;

.

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

,

где

– определитель матрицы парных коэффициентов корреляции;

– определитель матрицы межфакторной корреляции.

.

Коэффициент множественной корреляции

.

Аналогичный результат получим при использовании других формул:

;

;

.

Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной детерминации  оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет  и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов, и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более ) детерминированность результата y в модели факторами  и .

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи  дает F -критерий Фишера:

.

В нашем случае фактическое значение F -критерия Фишера:

.

Получили, что  (при ), т.е. вероятность случайно получить такое значение F -критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .

5. С помощью частных F -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора  после  и фактора  после  при помощи формул:

;

.

Найдем  и .

;

.

Имеем

;

.

Получили, что . Следовательно, включение в модель фактора  после того, как в модель включен фактор  статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака  оказывается незначительным, несущественным; фактор  включать в уравнение после фактора  не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения  после , то результат расчета частного F -критерия для  будет иным. , т.е. вероятность его случайного формирования меньше принятого стандарта . Следовательно, значение частного F -критерия для дополнительно включенного фактора  не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора  является существенным. Фактор  должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора .

6. Общий вывод состоит в том, что множественная модель с факторами  и  с  содержит неинформативный фактор . Если исключить фактор , то можно ограничиться уравнением парной регрессии:

, .




Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: