Тема 1. Парная регрессия и корреляция
1. Предварительно ознакомиться с теоретическим материалом:
Л1 [Гл. 2], Л2 [Гл. 1], Л3 [Гл. 1, 3, 5].
Примеры с решениями.
Пример 1. По территориям региона приводятся данные за календарный год (см. табл. 1).
Таблица 1
Номер региона | Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x | Среднедневная Заработная плата, руб., y |
1 | 78 | 133 |
2 | 82 | 148 |
3 | 87 | 134 |
4 | 79 | 154 |
5 | 89 | 162 |
6 | 106 | 195 |
7 | 67 | 139 |
8 | 88 | 158 |
9 | 73 | 152 |
10 | 87 | 162 |
11 | 76 | 159 |
12 | 115 | 173 |
Требуется:
1. Построить линейное уравнение парной регрессии y от x.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции с помощью F -критерия Фишера и t -критерия Стьюдента.
4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
6. На одном графике построить исходные данные и теоретическую прямую.
Решение:
1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2.
;
.
Получим уравнение регрессии: .
С увеличением среднедушевого прожиточного минимума на 100 руб. среднедневная заработная плата возрастает в среднем на 89 руб.
2. Тесноту линейной связи оценит коэффициент корреляции:
;
Коэффициент детерминации при этом составит:
.
Это означает, что 51% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.
Качество модели определяет средняя ошибка аппроксимации:
.
Таблица 2
x | y | yx | ||||||
1 | 78 | 133 | 10374 | 6084 | 17689 | 149 | ‑16 | 12,0 |
2 | 82 | 148 | 12136 | 6724 | 21904 | 152 | ‑4 | 2,7 |
3 | 87 | 134 | 11658 | 7569 | 17956 | 157 | ‑23 | 17,2 |
4 | 79 | 154 | 12166 | 6241 | 23716 | 150 | 4 | 2,6 |
5 | 89 | 162 | 14418 | 7921 | 26244 | 159 | 3 | 1,9 |
6 | 106 | 195 | 20670 | 11236 | 38025 | 174 | 21 | 10,8 |
7 | 67 | 139 | 9313 | 4489 | 19321 | 139 | 0 | 0,0 |
8 | 88 | 158 | 13904 | 7744 | 24964 | 158 | 0 | 0,0 |
9 | 73 | 152 | 11096 | 5329 | 23104 | 144 | 8 | 5,3 |
10 | 87 | 162 | 14094 | 7569 | 26244 | 157 | 5 | 3,1 |
11 | 76 | 159 | 12084 | 5776 | 25281 | 147 | 12 | 7,5 |
12 | 115 | 173 | 19895 | 13225 | 29929 | 183 | ‑10 | 5,8 |
Итого | 1027 | 1869 | 161808 | 89907 | 294377 | 1869 | 0 | 68,9 |
Среднее значение | 85,6 | 155,8 | 13484,0 | 7492,3 | 24531,4 | – | – | 5,7 |
12,84 | 16,05 | – | – | – | – | – | – | |
164,94 | 257,76 | – | – | – | – | – | – |
Качество построенной модели оценивается как хорошее, так как не превышает 8-10%.
3. Оценку значимости уравнения регрессии в целом проведем с помощью F -критерия Фишера. Фактическое значение F -критерия:
.
Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет . Так как , то уравнение регрессии признается статистически значимым.
Оценку статистической значимости параметров регрессии проведем с помощью t -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.
Табличное значение t -критерия для числа степеней свободы и составит .
Определим случайные ошибки , , :
;
;
.
Тогда
;
;
.
Фактические значения -статистики превосходят табличное значение:
; ; ,
поэтому параметры a, b и не случайно отличаются от нуля, а статистически значимы.
Рассчитаем доверительные интервалы для параметров регрессии a и b. Для этого определим предельную ошибку для каждого показателя:
;
.
Доверительные интервалы
Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.
4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит: руб., тогда прогнозное значение заработной платы составит: руб.
5. Ошибка прогноза составит:
.
Предельная ошибка прогноза, которая в случаев не будет превышена, составит:
.
Доверительный интервал прогноза:
;
руб.;
руб.
Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 131,66 руб. до 190,62 руб.
6. Построим на одном графике исходные данные и теоретическую прямую (рис. 1):
Рис. 1.
Тема 2. Множественная регрессия и корреляция
1. Предварительно ознакомиться с теоретическим материалом:
Л1 [Гл. 3], Л2 [Гл. 2], Л3 [Гл. 4].
Примеры с решениями.
Пример. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%).
Номер предприятия | y | Номер предприятия | y | ||||
1 | 7,0 | 3,9 | 10,0 | 11 | 9,0 | 6,0 | 21,0 |
2 | 7,0 | 3,9 | 14,0 | 12 | 11,0 | 6,4 | 22,0 |
3 | 7,0 | 3,7 | 15,0 | 13 | 9,0 | 6,8 | 22,0 |
4 | 7,0 | 4,0 | 16,0 | 14 | 11,0 | 7,2 | 25,0 |
5 | 7,0 | 3,8 | 17,0 | 15 | 12,0 | 8,0 | 28,0 |
6 | 7,0 | 4,8 | 19,0 | 16 | 12,0 | 8,2 | 29,0 |
7 | 8,0 | 5,4 | 19,0 | 17 | 12,0 | 8,1 | 30,0 |
8 | 8,0 | 4,4 | 20,0 | 18 | 12,0 | 8,5 | 31,0 |
9 | 8,0 | 5,3 | 20,0 | 19 | 14,0 | 9,6 | 32,0 |
10 | 10,0 | 6,8 | 20,0 | 20 | 14,0 | 9,0 | 36,0 |
Требуется:
1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.
2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.
3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
4. С помощью F -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .
5. С помощью частных F -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .
6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.
Решение:
Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:
№ | y | ||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
1 | 7,0 | 3,9 | 10,0 | 27,3 | 70,0 | 39,0 | 49,0 | 15,21 | 100,0 |
2 | 7,0 | 3,9 | 14,0 | 27,3 | 98,0 | 54,6 | 49,0 | 15,21 | 196,0 |
3 | 7,0 | 3,7 | 15,0 | 25,9 | 105,0 | 55,5 | 49,0 | 13,69 | 225,0 |
4 | 7,0 | 4,0 | 16,0 | 28,0 | 112,0 | 64,0 | 49,0 | 16,0 | 256,0 |
5 | 7,0 | 3,8 | 17,0 | 26,6 | 119,0 | 64,6 | 49,0 | 14,44 | 289,0 |
6 | 7,0 | 4,8 | 19,0 | 33,6 | 133,0 | 91,2 | 49,0 | 23,04 | 361,0 |
7 | 8,0 | 5,4 | 19,0 | 43,2 | 152,0 | 102,6 | 64,0 | 29,16 | 361,0 |
8 | 8,0 | 4,4 | 20,0 | 35,2 | 160,0 | 88,0 | 64,0 | 19,36 | 400,0 |
9 | 8,0 | 5,3 | 20,0 | 42,4 | 160,0 | 106,0 | 64,0 | 28,09 | 400,0 |
10 | 10,0 | 6,8 | 20,0 | 68,0 | 200,0 | 136,0 | 100,0 | 46,24 | 400,0 |
11 | 9,0 | 6,0 | 21,0 | 54,0 | 189,0 | 126,0 | 81,0 | 36,0 | 441,0 |
12 | 11,0 | 6,4 | 22,0 | 70,4 | 242,0 | 140,8 | 121,0 | 40,96 | 484,0 |
13 | 9,0 | 6,8 | 22,0 | 61,2 | 198,0 | 149,6 | 81,0 | 46,24 | 484,0 |
14 | 11,0 | 7,2 | 25,0 | 79,2 | 275,0 | 180,0 | 121,0 | 51,84 | 625,0 |
15 | 12,0 | 8,0 | 28,0 | 96,0 | 336,0 | 224,0 | 144,0 | 64,0 | 784,0 |
16 | 12,0 | 8,2 | 29,0 | 98,4 | 348,0 | 237,8 | 144,0 | 67,24 | 841,0 |
17 | 12,0 | 8,1 | 30,0 | 97,2 | 360,0 | 243,0 | 144,0 | 65,61 | 900,0 |
18 | 12,0 | 8,5 | 31,0 | 102,0 | 372,0 | 263,5 | 144,0 | 72,25 | 961,0 |
19 | 14,0 | 9,6 | 32,0 | 134,4 | 448,0 | 307,2 | 196,0 | 92,16 | 1024,0 |
20 | 14,0 | 9,0 | 36,0 | 126,0 | 504,0 | 324,0 | 196,0 | 81,0 | 1296,0 |
Сумма | 192 | 123,8 | 446 | 1276,3 | 4581 | 2997,4 | 1958,0 | 837,74 | 10828,0 |
Средн. знач. | 9,6 | 6,19 | 22,3 | 63,815 | 229,05 | 149,87 | 97,9 | 41,887 | 541,4 |
Найдем средние квадратические отклонения признаков:
;
;
.
1. Вычисление параметров линейного уравнения множественной регрессии.
Для нахождения параметров линейного уравнения множественной регрессии
необходимо решить следующую систему линейных уравнений относительно неизвестных параметров a, , :
либо воспользоваться готовыми формулами:
; ; .
Рассчитаем сначала парные коэффициенты корреляции:
;
;
.
Находим
;
;
.
Таким образом, получили следующее уравнение множественной регрессии:
.
Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:
;
.
Т.е. стандартизованное уравнение будет выглядеть следующим образом:
.
Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.
Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:
.
Вычисляем:
; .
Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61% или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора , чем фактора .
2. Коэффициенты парной корреляции мы уже нашли:
; ; .
Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т.к. . При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.
Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.
При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:
;
.
Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.
Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:
,
где
– определитель матрицы парных коэффициентов корреляции;
– определитель матрицы межфакторной корреляции.
.
Коэффициент множественной корреляции
.
Аналогичный результат получим при использовании других формул:
;
;
.
Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.
3. Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.
Скорректированный коэффициент множественной детерминации
определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов, и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более ) детерминированность результата y в модели факторами и .
4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает F -критерий Фишера:
.
В нашем случае фактическое значение F -критерия Фишера:
.
Получили, что (при ), т.е. вероятность случайно получить такое значение F -критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .
5. С помощью частных F -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:
;
.
Найдем и .
;
.
Имеем
;
.
Получили, что . Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.
Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после , то результат расчета частного F -критерия для будет иным. , т.е. вероятность его случайного формирования меньше принятого стандарта . Следовательно, значение частного F -критерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора .
6. Общий вывод состоит в том, что множественная модель с факторами и с содержит неинформативный фактор . Если исключить фактор , то можно ограничиться уравнением парной регрессии:
, .