Прогнозирование на основе парного линейного уравнения регрессии

ЛАБОРАТОРНАЯ РАБОТА № 2

Цель работы: построить на основе статистических данных линейное уравнение регрессии, оценить качество модели, и если она будет удовлетворительной, то сделать прогноз.

ТЕОРИЯ

Оценка статистической значимости уравнения регрессии и его параметров: .

После того, как найдено уравнение регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

1. О значимости уравнения линейной регрессии в целом можно судить на основании значимости коэффициента корреляции между переменными. Для оценки статистической значимости коэффициента регрессии и корреляции используется тест.

Проверяется нулевая гипотеза об отсутствии линейной связи между переменными X и Y, т.е. . Конкурирующая гипотеза – существует линейная связь между переменными. Проверка нулевой гипотезы состоит в сравнении фактического или наблюдаемого и критического или табличного значений критерия Стьюдента. Рассчитывается по формуле:

(1)

Здесь – стандартная ошибка коэффициента корреляции, – объем выборки. Полученное значение критерия сравнивается с критическим значением , определяемым по таблице Стьюдента по заданному уровню значимости и по числу степеней свободы .

Уровень значимости – вероятность отвергнуть правильную нулевую гипотезу, когда она верна (ошибка первого рода). Вероятность того, что будет принята верная нулевая гипотеза называется уровнем надежности и обозначается . Надежность и уровень значимости связаны соотношением: .

Если , то гипотеза отвергается на уровне значимости , т.е. считается, что коэффициент корреляции между переменными отличен от нуля и между переменными существует линейная связь. Уравнение регрессии в данном случае тоже считается значимым.

Если , то мы не можем сделать вывод ни о наличии, ни об отсутствии связи между наблюдаемыми параметрами и . Необходимо повторить наблюдение на большем количестве наблюдений (данных) и перепроверить гипотезу .

2. Для оценки статистической значимости найденных МНК параметров уравнения регрессии и используется тест.

Выдвигается нулевая гипотеза о статистической незначимости, то есть случайной природе показателей. Фактические значения критериев находят по формулам:

(2)

Здесь – стандартные ошибки параметров уравнения регрессии и сравнивают с критическим значением , определяемым по таблице Стьюдента по заданному уровню значимости и по числу степеней свободы .

Величину стандартных ошибок можно определить по формулам:

(3)

, (4)

где – стандартная ошибка. Если наблюдаемые значения критерия и больше табличного значения , то гипотеза отклоняется, т.е. параметры и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора . Уравнение регрессии в данном случае тоже считается значимым.

Если , то мы не можем сделать вывод ни о наличии, ни об отсутствии связи между наблюдаемыми параметрами. Необходимо повторить наблюдение на большем количестве наблюдений (данных) и перепроверить гипотезу.

3. Оценка статистической значимости уравнения в целом проводится с помощью критерия.

Общая сумма квадратов отклонений переменной от среднего значения раскладывается на два слагаемых: «объясненную» (факторную) и «остаточную» («необъясненную») сумму квадратов:

(5)

Любая сумма квадратов отклонений связана с числом степеней свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант.

Для общей сумы квадратов необходимо независимых отклонений, поскольку в совокупности из n единиц после расчета среднего уровня свободно варьируются лишь число отклонений. Например, ряд значений y: 1, 2, 3, 4, 5. Среднее из них равно 3, и тогда n отклонений от среднего составят -2, -1, 0, 1, 2. Поскольку , то свободно варьируют лишь четыре отклонения, а пятое может быть определено, если четыре предыдущих известно.

Факторная сумма квадратов отклонений для парного линейного уравнения регрессии имеет число степеней свободы, равное 1, поскольку при заданном объеме наблюдений по x и y факторная сумма квадратов зависит только от одной константы – коэффициента регрессии b.

Число степеней свободы остаточной суммы квадратов составляет . Таким образом, для степеней свободы имеем равенство:

(6)

Разделив каждую суму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы:

(7)

(8)

(9)

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточные дисперсии в расчете на одну степень свободы, получим величину критерия:

(10)

Величина критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить следующим образом:

, (11)

а остаточную суму квадратов:

(12)

На основе формул (8)-(12) можно записать:

(13)

При проверки статистической значимости уравнения регрессии с помощью критерия Фишера проверяется нулевая гипотеза о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического и табличного значений критерия Фишера. определяется из специальной таблицы с помощью трех чисел: уровня значимости и степеней свободы и .

Нулевая гипотеза отклоняется, если и признается статистическая значимость и надежность оцениваемых характеристик. Если , то гипотеза не отклоняется и признается статистическая незначимость уравнения регрессии.

В экономических исследованиях широкое применение находит такой показатель как коэффициент эластичности, вычисляемый по формуле:

(14)

Коэффициент эластичности показывает, на сколько процентов изменится результат при изменении фактора на 1 % от своего номинального значения. Для линейной регрессии коэффициент эластичности равен:

(15)

и зависит от , поэтому рассчитывают средний коэффициент эластичности по формуле:

(16)

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат от своей величины при изменении фактора на 1 % от своего значения.

Оценка параметров уравнения регрессии производится на основании конечного числа статистических данных, поэтому сами коэффициенты уравнения регрессии являются случайными величинами, изменяющимися от выборки к выборке. Более правильно, с этой точки зрения, характеризовать параметр не только числовым значением (рассчитанным, например, по МНК), а доверительным интервалом, который покрывает параметр с некоторой (заданной заранее) вероятностью.

Пусть дана линейная регрессионная модель , для параметров которой (A и B) найдены оценки (a и b). Тогда числовые интервалы, покрывающие неизвестные параметры (A и B) с вероятностью определяются формулами:

, (17)

, (18)

где – – стандартные ошибки параметров уравнения регрессии, a и b – значения параметров уравнения регрессии, найденные каким-либо способом (например, МНК), – коэффициент Стьюдента для данного уровня надежности (или данного уровня значимости ) и – число степеней свободы, n – объем выборки, т.е. число имеющихся пар данных.

Под прогнозированием в эконометрике понимается построение оценки зависимой переменной для некоторого набора независимых переменных, которых нет в исходных наблюдениях.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, а во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

Пусть значение воздействующего фактора. Тогда предсказанным значением является оценка (точечный прогноз), величину которой найдем из уравнения регрессии .

Ошибка предсказания равна разности между предсказанным и действительным значениями результативного признака: .

Ошибка предсказания оценивается по формуле: , здесь – стандартная ошибка предсказания, вычисляемая по формуле:

. (19)

(20)

Соответствующий доверительный интервал (интервал прогноза) для прогнозов индивидуальных значений будет определяться по формуле:

(21)

Анализ формулы стандартной ошибки предсказания показывает: ширина доверительного интервала является переменной величиной. Она минимальна при и чем больше отклоняется от выборочного среднего , тем больше величина ошибки; чем больше объем выборки , тем величина ошибки меньше. Прогноз значений по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке, поэтому экстраполяция кривой регрессии может привести к значительной погрешности.

ПОСТАНОВКА ЗАДАЧИ

По территориям региона приводятся данные 199Х г.

Номер региона

Среднедушевой прожиточный минимум, в день одного трудоспособного, руб., х

Среднедневная заработная плата, руб, у

1. найти параметры и линейного уравнения парной регрессии ;

2. найти коэффициент детерминации;

3. рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока;

4. оценить статистическую значимость параметров уравнения регрессии, используя статистику Стьюдента и путем расчета доверительных интервалов каждого из показателей с 95% надежностью;

5. вычислить прогнозное значение при прогнозном значении , составляющем 110 % от среднего уровня;

6. оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал;

7. полученные результаты изобразить графически и привести экономическое обоснование.

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

1 2 3 4 5 6

Подборка статей по вашей теме: