Лабораторная работа №3. «Оценка достоверности параметров и уравнения регрессии в целом»

По результатам выполнения лабораторной работы №2 «Парный корреляционно-регрессионный анализ»получено уравнение парной линейной регрессии:

Поскольку уравнение получено для отдельного региона, необходимо оценить его значимость для Приволжского федерального округа.

1. Проведем F-тест.

Предположим, что уравнение будет не значимо для генеральной совокупности (нулевая гипотеза). Запишем в формализованном виде нулевую и альтернативную гипотезы:

Уровень значимости задан по условию α=0,05.

Для расчета F-критерия нам нужно рассчитать несмещенные оценки воспроизведенной регрессией дисперсии и остаточной. Для этого необходимо определить соответствующие объемы вариации.

Общий объем вариации мы можем найти, умножив выборочную дисперсию зависимой переменной на численность выборки.

Далее определим выровненные значения для каждой единицы выборки, подставив индивидуальные значения независимой переменной в уравнение регрессии. Затем рассчитаем остатки и их квадраты для каждого наблюдения, сумма всех квадратов и будет являться остаточным объемом вариации.

Таблица1 - Расчетные данные.

№ п/п Регион Инвестиции в основной капитал, руб. ВРП, тыс. руб.
   
  Приволжский федеральный округ x y
  Республика Башкортостан   52,5 60,74524 51,02041 236,7933798 67,98390021
  Республика Марий Эл   25,3 29,19474 402,289 261,2234277 15,16896072
  Республика Мордовия   26,9 40,57064 340,6661 22,9106096 186,886398
  Республика Татарстан   69,6 73,02157 587,7161 765,3205291 11,70714126
  Удмуртская Республика   51,5 49,80537 37,73469 19,78668023 2,871787783
  Чувашская Республика   29,7 36,38754 245,1461 80,45377541 44,72319125
  Кировская область   34,7 31,05941 113,5747 204,4253078 13,25393195
  Нижегородская область   55,1 37,90126 94,92327 55,59026374 295,7968296
  Оренбургская область   46,9 49,33034 2,380408 15,7862558 5,906528212
  Пензенская область     34,36689 235,8418 120,7856579 19,06972827
  Пермская область   66,5 65,95284 447,0204 424,1827408 0,299384066
  Самарская область   73,2 55,32493 775,2247 99,35678053 319,5181275
  Саратовская область   39,2 39,0392 37,91041 39,91640195 0,02585664
  Ульяновская область   33,9 32,3037 131,2661 170,3923704 2,54817369
Итого     635,0036 3502,714 2516,924181 985,7599391
среднее 7142,286 45,357        

Wобщ. = ∑ = 3502,714

Wрегр. = ∑ = 2516,924

Wост. = ∑ = 985,76

2. Определим число степеней свободы:

d.f.общ. = n – 1 = 14 – 1 = 13

d.f. регр. = m – 1 = 1

d.f.ост.=d.f.общ. - d.f.регр.=(n-1)-(m-1)=13-1=12

3. Поделив объемы вариации соответствующие им степени свободы, получим несмещенные оценки дисперсии.

4. Проведем сравнение дисперсий.

> = 2516,924 > 82,147, следовательно, модель является достоверной, так как регрессионная дисперсия превышает остаточную в несколько раз.

5. Рассчитаем фактическое значение критерия Фишера:

Теоретическое значение найдем, воспользовавшись встроенной формулой:

Вставка функций/статистические/fраспобр(α;df регр; df ост).

В нашем случае введем следующие данные: fраспобр(0,05;1; 12), в итоге было получено значение 4,7472.

Fфактич. > Fтабл. = 30,640 > 4,7472

Следовательно, принимается альтернативная гипотеза () и уравнение в целом значимо для генеральной совокупности, модель достоверна.

Также существует еще один способ нахождения значений F-теста, этот метод носит название «Компьютерный». Значения находятся с помощью программы «Excel».

Для этого в «Excel» открываем вкладку «Сервис», затем «Анализ данных» и выбираем «Регрессия».

ВЫВОД ИТОГОВ                
Дисперсионный анализ                  
  df SS MS F Значимость F        
Регрессия   2516,954 2516,954 30,640 0,000129        
Остаток   985,760 82,147            
Итого   3502,714              
                   
  Коэффи циенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%  
Y-пересечение 20,038 5,176 3,871 0,002 8,760 31,315 8,760 31,315  
Переменная X 1 0,004 0,0006 5,535 0,000 0,002 0,005 0,002 0,005  
                                               

Проверим значимость параметров и коэффициента корреляции по t-критерию.

Сформулируем нулевую и альтернативную гипотезы:

Уровень значимости критерия по условию.

Рассчитаем средние ошибки выборочных характеристик:

Определим средние ошибки для коэффициента корреляции по формулам:

Далее рассчитаем фактические значения критериев:

Критическое значение найдем, используя встроенную функцию:

Вставка функций/статистические/стьюдраспобр(α;v=n-m-1), в нашем случае:

Каждый из параметров уравнения оказался значимым, как и коэффициент корреляции для генеральной совокупности. Результаты корреляционно-регрессионного анализа можно распространять на всю генеральную совокупность, использовать уравнение в целях прогнозирования.

В отношении значимости коэффициента корреляции, коэффициента регрессии мы и не могли получить других выводов, поскольку F-тест указал на значимость уравнения в целом, поскольку для парной линейной регрессии:

Это равенство действительно выполняется:

Если параметры уравнения оказались значимыми, то возможно их интерпретация и распространение выводов на генеральную совокупность.

Проведем интервальную оценку параметров уравнения регрессии и коэффициента корреляции. Определим доверительные интервалы для генеральных параметров:

С 95% уровнем вероятности суждения можно утверждать, что условное начало попадет в интервал от 8,760 до 31,315:

Генеральный коэффициент полной регрессии будет находиться в пределах:

, а коэффициент корреляции:

По расчетам верхняя граница получилась равной 1,2, поэтому следует указать максимально возможное значение для коэффициента корреляции, то есть единицу.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: