По результатам выполнения лабораторной работы №2 «Парный корреляционно-регрессионный анализ»получено уравнение парной линейной регрессии:
Поскольку уравнение получено для отдельного региона, необходимо оценить его значимость для Приволжского федерального округа.
1. Проведем F-тест.
Предположим, что уравнение будет не значимо для генеральной совокупности (нулевая гипотеза). Запишем в формализованном виде нулевую и альтернативную гипотезы:
Уровень значимости задан по условию α=0,05.
Для расчета F-критерия нам нужно рассчитать несмещенные оценки воспроизведенной регрессией дисперсии и остаточной. Для этого необходимо определить соответствующие объемы вариации.
Общий объем вариации мы можем найти, умножив выборочную дисперсию зависимой переменной на численность выборки.
Далее определим выровненные значения для каждой единицы выборки, подставив индивидуальные значения независимой переменной в уравнение регрессии. Затем рассчитаем остатки и их квадраты для каждого наблюдения, сумма всех квадратов и будет являться остаточным объемом вариации.
|
|
Таблица1 - Расчетные данные.
№ п/п | Регион | Инвестиции в основной капитал, руб. | ВРП, тыс. руб. | ||||
Приволжский федеральный округ | x | y | |||||
Республика Башкортостан | 52,5 | 60,74524 | 51,02041 | 236,7933798 | 67,98390021 | ||
Республика Марий Эл | 25,3 | 29,19474 | 402,289 | 261,2234277 | 15,16896072 | ||
Республика Мордовия | 26,9 | 40,57064 | 340,6661 | 22,9106096 | 186,886398 | ||
Республика Татарстан | 69,6 | 73,02157 | 587,7161 | 765,3205291 | 11,70714126 | ||
Удмуртская Республика | 51,5 | 49,80537 | 37,73469 | 19,78668023 | 2,871787783 | ||
Чувашская Республика | 29,7 | 36,38754 | 245,1461 | 80,45377541 | 44,72319125 | ||
Кировская область | 34,7 | 31,05941 | 113,5747 | 204,4253078 | 13,25393195 | ||
Нижегородская область | 55,1 | 37,90126 | 94,92327 | 55,59026374 | 295,7968296 | ||
Оренбургская область | 46,9 | 49,33034 | 2,380408 | 15,7862558 | 5,906528212 | ||
Пензенская область | 34,36689 | 235,8418 | 120,7856579 | 19,06972827 | |||
Пермская область | 66,5 | 65,95284 | 447,0204 | 424,1827408 | 0,299384066 | ||
Самарская область | 73,2 | 55,32493 | 775,2247 | 99,35678053 | 319,5181275 | ||
Саратовская область | 39,2 | 39,0392 | 37,91041 | 39,91640195 | 0,02585664 | ||
Ульяновская область | 33,9 | 32,3037 | 131,2661 | 170,3923704 | 2,54817369 | ||
Итого | 635,0036 | 3502,714 | 2516,924181 | 985,7599391 | |||
среднее | 7142,286 | 45,357 |
Wобщ. = ∑ = 3502,714
Wрегр. = ∑ = 2516,924
Wост. = ∑ = 985,76
2. Определим число степеней свободы:
d.f.общ. = n – 1 = 14 – 1 = 13
d.f. регр. = m – 1 = 1
d.f.ост.=d.f.общ. - d.f.регр.=(n-1)-(m-1)=13-1=12
3. Поделив объемы вариации соответствующие им степени свободы, получим несмещенные оценки дисперсии.
4. Проведем сравнение дисперсий.
> = 2516,924 > 82,147, следовательно, модель является достоверной, так как регрессионная дисперсия превышает остаточную в несколько раз.
|
|
5. Рассчитаем фактическое значение критерия Фишера:
Теоретическое значение найдем, воспользовавшись встроенной формулой:
Вставка функций/статистические/fраспобр(α;df регр; df ост).
В нашем случае введем следующие данные: fраспобр(0,05;1; 12), в итоге было получено значение 4,7472.
Fфактич. > Fтабл. = 30,640 > 4,7472
Следовательно, принимается альтернативная гипотеза () и уравнение в целом значимо для генеральной совокупности, модель достоверна.
Также существует еще один способ нахождения значений F-теста, этот метод носит название «Компьютерный». Значения находятся с помощью программы «Excel».
Для этого в «Excel» открываем вкладку «Сервис», затем «Анализ данных» и выбираем «Регрессия».
ВЫВОД ИТОГОВ | |||||||||||||||||||||||
Дисперсионный анализ | |||||||||||||||||||||||
df | SS | MS | F | Значимость F | |||||||||||||||||||
Регрессия | 2516,954 | 2516,954 | 30,640 | 0,000129 | |||||||||||||||||||
Остаток | 985,760 | 82,147 | |||||||||||||||||||||
Итого | 3502,714 | ||||||||||||||||||||||
Коэффи циенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | ||||||||||||||||
Y-пересечение | 20,038 | 5,176 | 3,871 | 0,002 | 8,760 | 31,315 | 8,760 | 31,315 | |||||||||||||||
Переменная X 1 | 0,004 | 0,0006 | 5,535 | 0,000 | 0,002 | 0,005 | 0,002 | 0,005 | |||||||||||||||
Проверим значимость параметров и коэффициента корреляции по t-критерию.
Сформулируем нулевую и альтернативную гипотезы:
Уровень значимости критерия по условию.
Рассчитаем средние ошибки выборочных характеристик:
Определим средние ошибки для коэффициента корреляции по формулам:
Далее рассчитаем фактические значения критериев:
Критическое значение найдем, используя встроенную функцию:
Вставка функций/статистические/стьюдраспобр(α;v=n-m-1), в нашем случае:
Каждый из параметров уравнения оказался значимым, как и коэффициент корреляции для генеральной совокупности. Результаты корреляционно-регрессионного анализа можно распространять на всю генеральную совокупность, использовать уравнение в целях прогнозирования.
В отношении значимости коэффициента корреляции, коэффициента регрессии мы и не могли получить других выводов, поскольку F-тест указал на значимость уравнения в целом, поскольку для парной линейной регрессии:
Это равенство действительно выполняется:
Если параметры уравнения оказались значимыми, то возможно их интерпретация и распространение выводов на генеральную совокупность.
Проведем интервальную оценку параметров уравнения регрессии и коэффициента корреляции. Определим доверительные интервалы для генеральных параметров:
С 95% уровнем вероятности суждения можно утверждать, что условное начало попадет в интервал от 8,760 до 31,315:
Генеральный коэффициент полной регрессии будет находиться в пределах:
, а коэффициент корреляции:
По расчетам верхняя граница получилась равной 1,2, поэтому следует указать максимально возможное значение для коэффициента корреляции, то есть единицу.