Полученные МНК, имеют наименьшую дисперсию в

классе всех линейных несмещенных оценок.

Доказательство:

1.
Докажем несмещенность оценок: , .

2. Определим дисперсии оценок.

Следовательно, оценки состоятельны.

3. Оценки эффективны, то есть они имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров.
2. Анализ точности определения оценок коэффициентов регрессии.

Так как выборочные данные являются случайными величинами, оценки и также являются случайными величинами. В случае выполнения условий Гаусса-Маркова, оценки будут несмещенными и состоятельными. При этом они будут тем надежнее, чем меньше их разброс вокруг их математических ожиданий или меньше их дисперсия. Надежность получаемых оценок тесно связана с D(). Как уже известно , . Из соотношений можно сделать следующие очевидные выводы:

1) дисперсии и прямо пропорциональны D() = ²;

2) чем больше число наблюдений, тем меньше дисперсия;

3) чем больше (разброс х), тем меньше дисперсии оценок.

Так как случайные составляющие по выборке определены быть не могут, при анализе надёжности оценок коэффициентов регрессии они заменяются наблюдаемыми отклонениями , а дисперсии случайных отклонений D() = ² заменяются несмещенной оценкой = (здесь (n-2) – число степеней свободы). S – называют стандартной ошибкой регрессии. Тогда оценки дисперсий оценок

и ,

S _a и S_b – стандартные ошибки коэффициентов регрессии.

Пример. Получим оценки S², S _a, S_b для условий примера из лекции 2.

№ предприятия	1	2	3	4	5	6	7
Выпуск продукции, х	1	2	4	3	5	3	4
Затраты на производство, у	30	70	150	100	170	100	150

Решение
Ранее было получено уравнение регрессии

, с использованием которого можно было рассчитать модельные значения . Чтобы получить стандартные ошибки, необходимо:

1) n = 7;

S² = 263,1583/5 = 52,632; S = 7,255;

3) S_b²= S_b = 2,202;

4) S _a ² = S _a = 7,443.

Стандартные ошибки регрессии и её коэффициентов можно получить при использовании ППП Excel (см. Вывод итогов).

Если выполняется условие нормальности распределения случайного члена: ~ N(0; ), то МНК оценки коэффициентов регрессии тоже нормальны с соответствующими параметрами, так как они являются линейными функциями от У_t:

~ N() и ~ N().

Если условие нормальности ошибок не выполняется, то при некоторых условиях регулярности и росте n можно считать это распределение асимптотически нормальным.

Во время статистических исследований всегда проверяют гипотезы:

Н₀: а = а ₀ или «о значимости» Н₀: а = 0

Н₀: b = b₀ Н₀: b = 0.

Альтернативная гипотеза () предусматривает построение двусторонней критической области. В качестве критерия проверки используют случайные величины, называемые

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,991189256
R-квадрат	0,98245614
Нормированный R-квадрат	0,978947368
Стандартная ошибка	7,254762501
Наблюдения	7

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	14736,84211	14736,84211	280	1,39294E-05
Остаток	5	263,1578947	52,63157895
Итого	6	15000

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-5,789473684	7,443229276	-0,777817459	0,47185877	-24,92290365	13,34395628
x	36,84210526	2,201736912	16,73320053	1,39294E-05	31,18236035	42,50185017

t-статистиками: t_b = или t_a = ; которые имеют распределение Стьюдента с (n-2) степенями свободы. Проверка состоит в следующем:

- если , то нет оснований отвергать Н₀;

- если , то Н₀ отвергают.

При оценке значимости коэффициентов линейной регрессии на начальном этапе можно использовать «грубое» правило:

1) если стандартная ошибка коэффициента больше его по модулю (), то коэффициент не значим (надежность меньше 0,7);

2) если , то оценка может рассматриваться как относительно значимая, 0,7 <<0,95;

3) 2, то оценка значима, 0,95 <<0,99;

4) , это почти гарантия наличия линейной связи.

В каждом конкретном случае имеет значение число наблюдений. Чем их больше, тем надежнее при прочих равных условиях выводы о значимости коэффициентов. При n>10 «грубое» правило практически всегда работает.

Соответствующие доверительные интервалы для оценок коэффициентов регрессии с надёжностью имеют вид: () и ().

Пример. Проверим гипотезу Н₀: b = 37 при и 0,05 для нашего примера.

2) t_кр.дв(0,01;5) = 4,03; t_кр.дв(0,05;5) = 2,57;

3) Так как = 0,072 < t_кр.дв(0,05;5) = 2,57, то нет оснований отвергать Н₀.

Если Н₀ отвергается при , то она будет отвергнута и при . Если Н₀ не отвергается при , то она не будет отклоняться и при автоматически. Стандартные ППП содержат проверку «значимости» полученных оценок. При этом если Н₀: b = 0 не отклоняется, то коэффициент b статистически не значим, то есть нет зависимости между Х и У.
3. Качество уравнения регрессии. Коэффициент детерминации.

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной. Пусть для этого по выборочным данным построено уравнение регрессии. Тогда значение у в каждом наблюдении можно разложить на две составляющие , где е – остаток, т.е. та часть, которую невозможно объяснить. Разброс значений зависимой переменной характеризуется выборочной дисперсией

D(y) = D () = D () + D (e) + 2cov (, e).

Cov (, e) = cov (

D(y) = D() + D(e)

общая дисперсия факторная дисперсия, остаточная дисперсия,

объясненная уравнением необъясненная

Коэффициентом детерминации R² называют отношение ,

характеризующее долю вариации зависимой переменной, объясненную уравнением регрессии, .

Если R² = 1, то D(y) = D(), D(e) = 0, т.е. все точки наблюдений лежат на регрессионной прямой.

Если R² = 0, то регрессия не дает ничего, линия регрессии параллельна оси Ох.

Чем ближе R² к 1, тем более точно аппроксимирует у.

Вычисление R² корректно, если включено в уравнение. Полезны следующие соотношения:

; ; .

Для определения статистической значимости R² проверяется гипотеза

Н₀: R² = 0 с помощью статистики F = .

Если F < F_кр(, то Н₀ нет оснований отвергать или R² статистически не значим, в противном случае – значим. В случае парной регрессии R² = r ². Коэффициент корреляции r выступает показателем тесноты линейной зависимости, тесная нелинейная связь возможна и при r, близких к нулю.

Для нашего примера:

, R² = 0,982.

Следовательно, уравнение регрессии описывает 98,2% дисперсии признака у. Это означает очень тесную зависимость.

Можно показать, что в парном регрессионном анализе эквивалентны t-критерий для Н₀: b = 0, t-критерий для Н₀: r = 0 и F-критерий для Н₀: R² = 0. Таким образом, проверка значимости коэффициента b равносильна проверке значимости уравнения регрессии

, , F = и t_b = t_r = .
4. Интервалы прогноза по линейному уравнению регрессии.

Одной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Различают точечное и интервальное прогнозирование. При этом возможно предсказать условное математическое ожидание зависимой переменной (т.е. ср. значение), либо прогнозировать некоторое конкретное значение (т.е. индивидуальное).

Пусть имеется уравнение регрессии . Точечной оценкой М(У│Х=х_р) = _р = . Так как и имеют нормальное распределение (в силу нормальности ), то _р является случайной величиной с нормальным распределением.

М(_р) = М() =

D(_р) = D() + D() + x_p²D() + 2cov(,)x_p = +

+ x_p²-2x_p = (+ x_p² - 2 x_p)│=

= (+ - 2 x_p + x_p²) = .

- стандартная ошибка положения линии регрессии. Так как она минимальна при х_р = , то наилучший прогноз находится в центре области наблюдений и ухудшается по мере удаления от центра.

Случайная величина имеет распределение Стьюдента с (n-2) степенями свободы. Поэтому, задавая = Р(<t_кр_{(, n-2)), можно построить доверительный интервал для М(У│Х = хр), то есть положения линии регрессии (рис. 1.): ()}

Рис. 1. Доверительные интервалы положения линии регрессии – сплошная линия и индивидуального значения – пунктирная линия.

Фактические значения у варьируются около среднего значения р. Индивидуальные значения у могут отклоняться от р на величину случайной ошибки . Пусть yi - некоторое возможное значение у при хр. Если рассматривать yi как случайную величину У, а р – как случайную величину Ур, то можно отметить, что:

Y ~ N(, Yp ~ N().

Y и Yp независимы и, следовательно, U = Y - Yp ~ N с параметрами

M(U) = 0; D(U) = .

Значит случайная величина, имеющая распределение Стьюдента с (n-2) степенями свободы. Аналогично строится доверительный интервал индивидуального значения.

Пример. Стандартная ошибкасреднего расчетного значения

При , . При , . Следовательно, и, т.к. , то и

Стандартная ошибка индивидуального расчетного значения

и .
Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям. Поскольку может быть как положительной, так и отрицательной величиной, ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Для того чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую.

Допустимый предел 8 – 10 %, при котором подбор модели к исходным данным считается хорошим.

Возможно и другое определение средней ошибки аппроксимации:

Рассчитаем среднюю ошибку аппроксимации для нашего примера.

№	y
1	30	31,053	1,053	0,035
2	70	67,895	2,105	0,030
3	150	141,579	8,421	0,056
4	100	104,737	4,737	0,047
5	170	178,421	8,421	0,049
6	100	104,737	4,737	0,047
7	150	141,579	8,421	0,056
	0,322

Окончательно получим: , что говорит о хорошем качестве уравнения.

Выборочный коэффициент вариации определяется отношением выборочного среднего квадратического отклонения к выборочной средней, выраженным в процентах:

и .

Коэффициент вариации – безразмерная величина, удобная для сравнения величин рассеивания двух и более выборок, имеющих разные размерности. Совокупность данных считается однородной и пригодной для использования МНК и вероятностных методов оценок статистических гипотез, если значение коэффициента вариации не превосходит 35 %.

Для нашего примера:

Пример. Фирма провела рекламную компанию. Через 10 недель фирма решила проанализировать эффективность этого вида рекламы, сопоставив недельные объемы продаж (у, тыс. руб.) с расходами на рекламу (х, тыс. руб.).

Полагая, что между переменными х и у имеет место линейная зависимость, определить выборочное уравнение регрессии.