Гетероскедастичности и автокорреляции

При построении эконометрических моделей часто сталкиваются с таким явлением, как гетероскедастичность. Гетероскедастичность - это непостоянство отклонений фактических значений от расчетных, т.е. непостоянство дисперсий отклонений. Разберем сущность данного явления на конкретных примерах.

С целью изучения влияния минеральных удобрений на урожайность зерновых культур нами была собрана соответствующая информация по 25 предприятиям региона.

Таблица – Дозы минеральных удобрений и урожайность зерновых культур

№	Доза удобрений, кг д.в./га	Урожайность зерновых, ц/га	№	Доза удобрений, кг д.в./га	Урожайность зерновых, ц/га

В результате расчетов получена линейная эконометрическая модель вида:

Y_x = 12,0 + 0,33X, где

Х – доза минеральных удобрений, кг действующего вещества на 1 га;

Y_x – ожидаемая урожайность зерновых культур, ц/га.

Вышеприведенное уравнение регрессии не отличается очень высоким качеством (коэффициент парной корреляции r = 0,61).

На основании фактической информации, приведенной в таблице 15, изобразим поле корреляции и построим график эконометрической модели.

Из рисунка видно, что точки корреляционного поля расположены по обе стороны от расчетного уравнения регрессии. При этом абсолютные величины отклонений фактических значений результативного показателя от его расчетных значений нельзя считать постоянными. При небольших дозах минеральных удобрений изучаемые отклонения являются относительно небольшими (хотя и разными по модулю). Однако по мере роста факторного признака наблюдается увеличение размаха отклонений фактической урожайности от расчетной. Проявление гетероскедастичности может быть в самых различных формах. Нами был рассмотрен только один из множества возможных вариантов. Отсутствие гетероскедастичности свидетельствует о наличии гомоскедастичности.

Если отклонения фактических значений результативного показателя от линии уравнения регрессии находятся в определенных границах то в этом случае говорят об отсутствии гетероскедастичности. Каждое конкретное отклонение может быть большим или меньшим, положительным или отрицательным, но все отклонения заключены в некотором не очень широком ”коридоре”.

Гетероскедастичность может привести ко многим негативным последствиям. В частности, выводы, сделанные на основе характеристик эконометрических моделей, будут необъективными. Как следствие этого, анализ и прогноз развития экономической системы дадут во многом искаженные результаты.

Данную проблему приходиться решать после построения эконометрической модели. Наиболее хорошие результаты дает графический анализ отклонений и тест ранговой корреляции Спирмена.

Графический анализ отклонений позволяет наглядно отразить наличие гетероскедастичности. При использовании данного теста необходимо предварительно найти отклонения фактических значений результативного показателя от его расчетных значений, а затем полученные разности возвести в квадрат. Иными словами, необходимо использовать несложную формулу:

где y_i и - фактические и расчетные значения результативного показателя, соответственно. После этого по оси абсцисс откладываются значения факторной переменной X, а по оси ординат – квадраты отклонений e_i².

Если квадраты отклонений e_i² возрастают по мере увеличения значений факторного признака Х_i.- это свидетельствует о высокой вероятности наличия гетероскедастичности.

Графический анализ отклонений является удобным и достаточно эффективным в случае парной регрессии. Если проводится множественный регрессионный анализ, то необходимо построить соответствующие графики для каждой из независимых переменных. Однако в таких ситуациях лучше поступить иначе. Не стоит рассматривать несколько графиков, что требует больших затрат времени. Вместо независимых переменных по оси абсцисс нужно отложить расчетные значения результативного показателя. Тем самым, можно определить наличие или отсутствие гетероскедастичности на основании одного графика (даже если мы рассматриваем многофакторную эконометрическую модель).

Тест ранговой корреляции Спирмена.

При использовании данного теста предполагается, что величина отклонения e_i будет либо повышаться, либо уменьшаться по мере увеличения значений факторной переменной. Отмеченная выше закономерность позволяет сделать вывод, что абсолютные величины отклонений e_i и значения факторного признака x_i будут коррелированны, т.е. взаимосвязаны между собой. Для оценки силы связи следует рассчитать коэффициент ранговой корреляции Спирмена:

, где

d_i – разность между рангами x_i и e_i;

n – число опытов.

Рассмотрим фрагмент таблицы, в которой рассчитываются значения d_i.

Таблица 16 – Расчет разности между рангами

№	x_i	y_i		\|e_i\|	Ранг	d_i²
x_i	\|e_i\|
			30,2	1,8
			48,3	16,7
			31,1	5,9
			46,0	10,0	14,5		0,25
			41,0	9,0
Итого							548,5

Поясним методику расчета рангов. Для определения рангов по факторному показателю необходимо все значения соответствующего столбца расположить в порядке возрастания. Например, значение первого опыта x₁=55 в ранжированном ряду находится на втором месте (после числа 54). Следовательно, ранг первого значения факторного признака равен двум. Аналогично рассчитываются ранги для столбца отклонений. Иногда в ранжированном ряду встречаются одинаковые числа. В этом случае рассчитывается средний ранг. Например, два числа 103 (показатель X) расположены на четырнадцатом и пятнадцатом местах. Поэтому ранг этих значений будет равен 14,5.

После определения суммы последнего столбца таблицы 16 вычислим коэффициент ранговой корреляции Спирмена с помощью формулы (55):

Полученное значение превышает 0,7 и поэтому можно сделать вывод о наличии гетероскедастичности в рассматриваемом примере.

При обнаружении гетероскедастичности возникает необходимость преобразования эконометрической модели с целью устранения данного недостатка. Для смягчения гетероскедастичности часто применяется метод взвешенных наименьших квадратов. При этом для каждого опыта, наблюдения необходимо знать отклонения фактических значений результативного показателя от его расчетных значений. Обозначим данное отклонение через σ_i = |e_i|.

Метод взвешенных наименьших квадратов включает два этапа. Сначала (первый этап) все значения результативного и факторного показателей делятся на соответствующую величину σ_i (. Кроме того, для каждого опыта необходимо рассчитать значения

Расчеты, характерные для первого этапа, приведены в следующей таблице.

Таблица 17 – Преобразование исходных данных в целях уменьшения гетероскедастичности

№	x_i	y_i	σ_i
			1,8	0,556	30,56	17,78
			16,7	0,060	6,59	3,89
			5,9	0,169	9,83	6,27
			10,0	0,100	10,30	3,60
			9,0	0,111	9,78	3,56

Выполненные преобразования позволяют уменьшить значимость тех опытов, которые характеризуются высокими отклонениями расчетных значений от фактических. Напротив, если абсолютная разность между фактическим и расчетным значением результативного показателя относительно невелика, то соответствующему опыту придается большая значимость.

На втором этапе с помощью программы ”Регрессия” определим параметры двухфакторной модели вида:

В результате вычислений получена следующая эконометрическая модель:

Для нового уравнения регрессии коэффициент корреляции R почти равен единице. При использовании вышерассмотренной методики свободный член эконометрической модели будет всегда практически равен нулю. Таким образом, для устранения гетероскедастичности вместо линейного однофакторного уравнения регрессии рассчитали параметры двухфакторной эконометрической модели без свободного члена. Заметим, что коэффициент регрессии при факторной переменной снизился с 0,33 до 0,27. Это произошло вследствие того, что нами была уменьшена значимость опытов с высокими отклонениями e_i.

Автокорреляция это ситуация, когда наблюдаемые в данный момент значения зависимой переменной коррелируют с их значениями в предыдущие моменты времени, т. е. наблюдается корреляция между возмущениями в разные моменты времени.

Различают временную и пространственную автокорреляцию. Временная автокорреляция представляет собой корреляцию между показателями, которые упорядочены во времени (временные ряды). Соответственно, пространственная автокорреляция может встретиться в случаях, когда исходная информация за небольшой отрезок времени размещена в табличной форме с учетом определенных условий.

Сущность временной автокорреляции поясним на основе следующего примера. Пусть изучается объем продажи мороженного в магазине (тыс.денежных единиц) на протяжении года. Исходная информация приведена в таблице 1.

Таблица 1 – Спрос на мороженное в течение года, тыс. денежных единиц

Месяцы

январь

февраль

март

апрель

май

июнь

июль

август

сентябрь

октябрь

ноябрь

декабрь

Продажа продукции,.

С помощью программы ”Регрессия” была рассчитана трендовая линейная модель Y_t = 37,77 + 0,34t, где

t – номер месяца (для января t = 1);

Y_t – ожидаемая продажа продукции за месяц t, денежных единиц.

Коэффициент корреляции данной модели составляет 0,14.

На координатной плоскости изобразим корреляционное поле и график полученного уравнения регрессии.

Рисунок – Наличие автокорреляции

Y_t=37,77+0,34t

Из рисунка видно, что фактические точки наблюдений в первые три месяца находятся ниже линии уравнения регрессии. В период с апреля по сентябрь наблюдается противоположная тенденция, а именно, точки корреляционного поля расположены выше прямой линии. Наконец, в последние 3 месяца года точки снова опускаются ниже линии уравнения регрессии.

Анализ показывает, что между отклонениями e_i существует определенная закономерность. Иными словами, в данном случае присутствует автокорреляция.

При изучении экономических процессов и явлений встречается положительная и отрицательная автокорреляция. Положительная автокорреляция означает, что за отрицательным отклонением следует положительное и наоборот.

К основным причинам, которые вызывают появление автокорреляции следует отнести ошибки спецификации, инертность экономических показателей, эффект паутины и сглаживание исходных данных.

Ошибки спецификации. Неправильный выбор формы связи между факторным и результативным показателями часто приводит к появлению автокорреляции. Если вернуться к рисунку то очевидно, что в этом случае параболическая зависимость более адекватно отражает изучаемый экономический процесс. Поэтому расчет параметров параболы и последующее использование этой линии для анализа экономических явлений позволит существенно снизить влияние автокорреляции и, соответственно, повысить качество эконометрической модели.

Инертность экономических показателей. Многие экономические показатели обладают определенной цикличностью. Известно, что экономический цикл – это динамическая характеристика экономики, включающая периодические взлеты и падения в развитии экономической системы.

Обычно выделяют 4 фазы экономического цикла: оживление, бум, спад, подъем. Понятно, что переход от одного цикла к последующему не может произойти мгновенно. Иными словами, динамика развития экономической системы обладает определенной инертностью.

Эффект паутины. Очень часто производственно-экономические показатели реагируют на изменение внешних условий с запаздыванием. Например, увеличение цены на зерно в начале года не приведет сразу же к улучшению финансового состояния сельскохозяйственного предприятия. Должно пройти определенное время, чтобы созрел урожай и продукция была реализована по новым ценам.

Сглаживание исходных данных. В некоторых случаях данные по некоторому достаточно продолжительному интервалу времени получают усреднением данных по отдельным подынтервалам. Это приводит к определенному уменьшению колебаний внутри изучаемого периода и может вызвать автокорреляцию.

Автокорреляция имеет несколько негативных моментов. Данное явление, прежде всего, снижает качество эконометрической модели. В некоторых случаях характеристики полученного уравнения регрессии будут завышенными и, следовательно, использование таких эконометрических моделей для анализа и прогнозирования экономики даст нам искаженные результаты.

Методы определения автокорреляции могут быть использованы только после расчета параметров эконометрической модели и отклонений e_i.

Графический метод.

При использовании графического метода по оси абсцисс откладываются либо время получения данных, либо порядковый номер наблюдения. Ось ординат, в свою очередь, служит для указания отклонений e_i. Анализ отклонений показывает отсутствие или наличие связи между отклонениями и, следовательно, в этом случае вероятность наличия или отсутствия автокорреляции. Графический метод не всегда может дать однозначный ответ на вопрос о наличии автокорреляции и её направлении.

Метод рядов.

Если вернуться к задаче, где мы рассматривали динамику реализации мороженного то можно записать знаки отклонений e_t в виде следующей последовательности символов: (---)(++++++)(---).

Дадим некоторые определения. Ряд – это непрерывная последовательность одинаковых знаков. Количество знаков в ряду называется длиной ряда. В нашем случае имеется 3 ряда. Длина второго ряда составляет 6. Первый и третий ряды включают по 3 знака.

Для решения вопроса о наличии автокорреляции необходимо рассчитать два числа:

В вышеприведенных формулах применяются следующие обозначения:

k – количество рядов;

n₁ – общее количество знаков ”+” в n наблюдениях (количество положительных отклонений e_t);

n₂ – общее количество знаков ”-” в n наблюдениях (количество отрицательных отклонений e_t).

В нашем задании значения n₁ и n₂ одинаковы и равны шести. Соответственно, объем всей совокупности n составляет 12.

Рассчитаем конкретные значения M(k) и D(k):

Автокорреляция отсутствует, если выполняется двойное неравенство:

M(k) – D(k) < k < M(k) + D(k) (58)

Однако для нашего примера последнее неравенство не выполняется:

7 – 2,72 < 3 < 7 + 2,72

Следовательно, необходимо сделать вывод о присутствии автокорреляции в наших исходных данных.

С помощью метода рядов можно не только определить наличие автокорреляции, но также узнать её направление (положительная или отрицательная). Для этого необходимо использовать специальные таблицы критических значений количества рядов при n наблюдениях. Авторами данных таблиц являются Свед и Эйзенхарт. Рассмотрим фрагмент таблиц Сведа и Эйзенхарта и изучим методику определения автокорреляции.

Таблица 2 – Фрагмент таблиц Сведа и Эйзенхарта.

Нижняя граница k₁

n₁	n₂
								-
									-
									-
									-
									-
									-
									-
									-
-	-	-	-	-	-	-	-	-	-	-
									-

Верхняя граница k₂

n₁	n₂
								-
									-
									-
									-
									-
									-
									-
									-
-	-	-	-	-	-	-	-	-	-	-
									-

На пересечении строки n₁ и столбца n₂ определяем нижнее k₁ и верхнее k₂ значения. В нашем случае n₁ = n₂ = 6 и, следовательно, нижнее значение k₁ = 3. Соответственно, верхнее значение k₂ = 11.

После нахождения значений k₁ и k₂ необходимо рассмотреть 3 варианта. Если выполняется двойное неравенство k₁ < k < k₂, то мы делаем вывод об отсутствии автокорреляции.

Если k ≤ k₁, то говорят о положительной автокорреляции. Именно такая ситуация наблюдается в нашем примере (3 ≤ 3).

Наконец, если k ≥ k₂, то можно заявлять о наличии отрицательной автокорреляции.

Критерий Дарбина-Уотсона (DW).

Общая схема критерия Дарбина-Уотсона состоит в следующем.

1. Строится уравнение регрессии и определяются отклонения для каждого наблюдения, общее количество которых составляет T.

2. Рассчитывается критерий DW по формуле:

На примере информации из таблицы 1 покажем методику расчета рассматриваемого критерия.

Таблица 3 – Схема расчета критерия Дарбина-Уотсона

t	y_t		e_t	e_t²	e_t-1	(e_t – e_t-1)²
		38,11	-13,11	171,9
		38,45	-6,45	41,6	-13,11	44,4
		38,79	-1,79	3,2	-6,45	21,7
		39,13	0,87	0,8	-1,79	7,1
		39,47	9,53	90,8	0,87	75,0
		39,81	15,19	230,7	9,53	32,0
		40,15	11,85	140,4	15,19	11,2
		40,49	3,51	12,3	11,85	69,6
		40,83	0,17	0,0	3,51	11,2
		41,17	-3,17	10,0	0,17	11,2
		41,51	-6,51	42,4	-3,17	11,2
		41,85	-9,85	97,0	-6,51	11,2
			Итого:	841,1		305,8

Расчетные значения были определены на основании уравнения регрессии =37,77 + 0,34t. Значения столбца e_t_-1 получаются путем перемещения значений колонки e_t на один уровень вниз. Из этого следует, что при заполнении столбца e_t_-1 первое значение теряется.

После заполнения таблицы и нахождения соответствующих сумм легко рассчитать критерий Дарбина-Уотсона:

3. На заключительном этапе анализа необходимо сравнить фактическое значение критерия Дарбина-Уотсона с табличными данными. Существуют специальные таблицы определения критических точек для распределения Дарбина-Уотсона. С помощью этих таблиц можно определить критические точки d₁ и d_u при требуемом уровне значимости (например, 0,05). Конкретные значения d₁ и d_u зависят от количества наблюдений (опытов) n, а также от числа факторных переменных эконометрической модели m. В нашем примере значения d₁ и d_u составляют 0,971 и 1,331, соответственно (n=12; m=1; уровень значимости принят равным 0,05).

При сравнении фактических и расчетных значений критерия Дарбина-Уотсона можно сделать вывод о наличии автокорреляции и её направленности. Для этого следует руководствоваться следующими правилами:

0 ≤ DW < d₁ – существует положительная автокорреляция;

d₁ ≤ DW < d_u – невозможно сделать вывод о наличии автокорреляции;

d_u ≤ DW < 4 – d_u – автокорреляция отсутствует;

4 - d_u ≤ DW < 4 – d₁ - невозможно сделать вывод о наличии автокорреляции;

4 – d₁ ≤ DW < 4 – существует отрицательная автокорреляция.

Таким образом, выполняется первое неравенство: 0 ≤ DW=0,364 < d₁=0,971 и это подтверждает факт наличия положительной автокорреляции в нашем примере.

Автокорреляция, как указывалось ранее, представляет собой негативное явление, которое ухудшает качество эконометрических моделей. Поэтому, необходимо знать и уметь применять на практике различные способы смягчения автокорреляции. Чаще всего автокорреляция вызывается неправильной спецификацией модели. Следовательно, для уменьшения автокорреляции необходимо попытаться изменить форму эконометрической модели.

Иногда автокорреляция связана с отсутствием в модели какого-нибудь важного фактора. Поэтому, необходимо данный фактор (или несколько факторных переменных) включить в уравнение регрессии. Однако, если уменьшить автокорреляцию наиболее очевидными методами не получается, то данное явление обусловлено какими-то внутренними особенностями исходных данных.

Задание 1. Используя данные нижеприведенных таблиц определите наличие автокорреляции между отдельными показателями.