По 20 территориям России изучаются следующие данные (табл. 2.2): зависимость среднегодового душевого дохода у (тыс. руб.) от доли занятых тяжелым физическим трудом в общей численности занятых х1 (%) и от доли экономически активного населения в численности всего населения х2 (%).
Таблица 2.2
Признак | Среднее значение | Средне- квадратическое отклонение | Характеристика тесноты связи | Уравнение связи |
у | 112,76 | 31,58 | ||
х1 | 5,40 | 3,34 | ||
х2 | 50,88 | 1,74 | ||
Требуется:
1.Составить таблицу дисперсионного анализа для проверки при уровне значимости α= 0,05 статистической значимости уравнения множественной регрессии и его показателя тесноты связи.
2.С помощью частных F-критериев Фишера оценить, насколько целесообразно включение в уравнение множественной регрессии фактора х1 после фактора х2 и насколько целесообразно включение х2 после x1.
3.Оценить с помощью t-критерия Стьюдента статистическую значимость коэффициентов при переменных х1 и х2 множественного уравнения регрессии.
|
|
Решение:1. Задача дисперсионного анализа состоит в проверке нулевой гипотезы h0 остатистической незначимости уравнения регрессии в целом и показателя тесноты связи.
Анализ выполняется при сравнении фактического и табличного (критического) значений F-критерия Фишера Fтабл и Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
где п - число единиц совокупности,
т - число факторов в уравнении линейной регрессии;
ŷ - фактическое значение результативного признака;
- расчетное значение результативного признака.
Результаты дисперсионного анализа представлены в табл. 2.3.
Таблица 2.3
Вариация результата, у | Число степеней свободы | Сумма квадратов отклонений, S | Дисперсия на одну степень свободы, s2 | Fфакт | Fтабл α = 0,05, k1=2. k2=17 |
Общая | df=n-1=19 | 19945,9 | - | - | - |
Факторная | k1 = т = 2 | 11918,3 | 5959,15 | 12,62 | 3,59 |
Остаточная | k2 =n-m- 1 = 17 | 8027,6 | 472,21 | - | - |
;
;
;
.
Сравнивая Fтабл и Fфaкт, приходим к выводу о необходимости отклонить гипотезу Н0 и сделать вывод о статистической значимости уравнения регрессии в целом и значения ,так как они статистически надежны и сформировались под систематическим действием неслучайных причин. Вероятность того, что допускаются ошибки при отклонении нулевой гипотезы, не превышает 5 %, и это является достаточно малой величиной.
2. Частный F-критерий Фишера оценивает статистическую целесообразность включения фактора х1 в модель после того, как в нее включен фактор х2. Частный F-критерий Фишера строится как отношение прироста факторной дисперсии за счет дополнительно включенного фактора (на одну степень свободы) к остаточной дисперсии (на одну степень свободы), подсчитанной по модели с включенными факторами х1 и х2.:
|
|
.
Результаты дисперсионного анализа представлены в табл. 2.4.
;
;
;
;
.
Таблица 2.4
Вариация результата, у | Число степеней свободы | Сумма квадратов отклонений, S | Дисперсия на одну степень свободы, s2 | Fфакт | Fтабл α=0,05, k1=2, k2=17 |
Общая | df=n-1=19 | 19945,9 | - | - | - |
Факторная В том числе: •за счет х2 • за счет дополнительно включенного x1 | k1=m = 2 | 11918,3 5127,1 6791,2 | 5959,15 5127,1 6791,2 | 12,62 10,86 14,38 | 3,59 4,45 4,45 |
Остаточная | k2=n-m- 1=17 | 8027,6 | 472,21 | - | - |
Включение фактора х1 после фактора х2 оказалось статистически значимым и оправданным: прирост факторной дисперсии (в расчете на одну степень свободы) оказался существенным, т.е. следствием дополнительного включения в модель систематически действующего фактора x1, так как .
Аналогично проверим целесообразность включения в модель дополнительного фактора х2 после включенного ранее фактора х1. Расчет выполним с использованием показателей тесноты связи и :
.
Приходим к выводу, что включение фактора х2 после х1 оказалось бесполезным: прирост факторной дисперсии в расчете на одну степень свободы был несущественен, статистически незначим, т.е. влияние х2 не является устойчивым, систематическим. Вполне возможно ограничиться построением линейного уравнения парной регрессии от х1.
3. Оценка с помощью t-критерия Стьюдента значимости коэффициентов b1 и b2 связано с сопоставлением их значений с величиной их случайных ошибок: и , расчет которых сложен и трудоемок. Поэтому рассмотрим более простой способ: расчет значений t-критерий Стьюдента через частный F-критерий Фишера:
По таблице приложения II из [11] для ; . Сравним , коэффициент регрессии b1 является статистически значимым, надежным, на него можно опираться в анализе и в прогнозе. Т.к. , т.е. величина b2 является статистически незначимой, ненадежной в силу того, что она формируется преимущественно под воздействием случайных факторов.