Гетероскедастичность случайной составляющей

При оценке параметров уравнения регрессии чаще всего применяется традиционный метод наименьших квадратов. При этом должны выполняться определенные предпосылки относительно случайной составляющей u_i и объясняющих переменных х_i (предпосылки нормальной линейной модели). Напомним, что u_i, имеет смысл отклонения в линейной модели регрессии: .

Третья предпосылка гласит: , i=1;n, что означает постоянство дисперсий случайных составляющих для каждого наблюдения i.

Поясним данную предпосылку на примере. Случайная составляющая u_i в каждом наблюдении может иметь только одно значение. Что же означает дисперсия u_i? Имеется в виду возможное поведение u_i до того, как проведено наблюдение. То есть нет основания apriori ожидать появления особенно больших отклонений в любом наблюдении i=1;n. Иными словами вероятность того, что величина u_i примет какое-то данное значение, будет одинакова для всех i. Это условие известно как условие гомоскедастичности, что означает одинаковый разброс.

Вместе с тем, для некоторых выборок можно предположить, что теоретическое распределение случайной составляющей u_i является различным для разных наблюдений в выборке, а следовательно, различными будут и дисперсии случайных составляющих. Если дисперсии случайных составляющих неодинаковы в разных наблюдениях: , i, j = 1;n (i ¹ j), говорят, что имеет место гетероскедастичность (т. е. неодинаковый разброс случайных составляющих). Например, если исследуется зависимость расходов на питание в семье от ее общего дохода, то можно ожидать, что разброс данных будет выше для семей с более высоким доходом. Это означает, что дисперсии зависимых величин – расходов на питание, (а следовательно, и случайных ошибок) не постоянны для отдельных значений объясняющей переменной – дохода.

Гетероскедастичность может иметь место и при использовании в качестве данных наблюдений временных рядов (х_t, у_t). Если значения х_t и у_t увеличиваются со временем, то, возможно, и дисперсия случайной составляющей также будет расти со временем.

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 2.2).

Рис. 2.2. Корреляционное поле. Случаи гетероскедастичности

На рис. 2.2, а дисперсия случайных составляющих растет по мере увеличения х. На рис. 2.2, б дисперсия случайных составляющих достигает максимальной величины при средних значениях х и уменьшается при минимальных и максимальных значениях х.

Кроме того, наличие гетероскедастичности можно проследить из графика зависимости остатков е_i от расчетного значения признака-результата . Гетероскедастичность, соответствующая полю корреляции а на рис. 2.2, приведена на рис. 2.3, а, гетероскедастичность, соответствующая полю корреляции б на рис. 2.2, приведена на рис. 2.3, б.

Рис. 2.3. Графики зависимости остатков от теоретических значений результата.
Случаи гетероскедастичности

Последствия гетероскедастичности:

оценки параметров уравнения регрессии становятся неэффективными;
оценки стандартных ошибок параметров регрессии будут неверными. (Например, оценки стандартных ошибок могут оказаться заниженными. Тогда значения t -критерия окажутся завышенными. Мы решим, что параметр регрессии значим, а на самом деле это будет не так. То есть могут быть получены неверные выводы о надежности уравнения регрессии.)

Обнаружение гетероскедастичности. Наиболее популярным является тест Голдфелда-Квандта.

Данный тест используется для проверки следующего типа гетероскедастичности: когда среднее квадратическое отклонение случайной составляющей пропорционально значению признака-фактора х_i в i -м наблюдении. При этом делается предположение, что случайная составляющая u_i распределена нормально.

Алгоритм-тест Голдфелда-Квандта приведен ниже.

Все наблюдения i = 1; n упорядочиваются по значению x_i.

Оценивается регрессия: (i = 1; n ‘) для первых n' наблюдений.

Оценивается регрессия: (i = n –(n’ + 1); n) для последних n' наблюдений. (n' < n/2).

Рассчитывают суммы квадратов отклонений фактических значений признака-результата от его расчетных значений для обеих регрессий:

и .

Находят отношение сумм квадратов отклонений: S1/S2 (или S2/S1). В числителе должна быть наибольшая из сумм квадратов отклонений. Данное отношение имеет F -распределение со степенями свободы: k₁=n’-h и k₂=n’-h, где h – число оцениваемых параметров в уравнении регрессии.

Если , то гетероскедастичность имеет место.

Если в модели более одного фактора, то наблюдения должны упорядочиваться по тому фактору, который, как предполагается, теснее связан с , и n’ должно быть больше, чем h.

Устранение гетероскедастичности. Для этого нужно найти способ придать наибольший вес наблюдению i, у которого среднее квадратическое отклонение случайной составляющей максимально (такие наблюдения обладают самым низким качеством); и малый вес наблюдению, у которого среднее квадратическое отклонение случайной составляющей минимально (такие наблюдения обладают самым высоким качеством). Тогда мы получим более точные (эффективные) оценки параметров уравнения регрессии: .

Разделим правую и левую части уравнения на . Получим: .

Введем новые переменные:

Тогда уравнение регрессии примет вид:

Преобразованное уравнение относится к двухфакторному уравнению регрессии (1-й фактор – X, 2-й фактор — v). Данное уравнение представляет собой так называемую взвешенную регрессию (с весами ). При этом наблюдениям высокого качества с меньшими придаются большие веса и наоборот. Случайная составляющая в i -м наблюдении – имеет постоянную дисперсию:

т. е. модель будет гомоскедастичной.

Данный способ устранения гетероскедастичности применим, если известны фактические значения , что не встречается на практике.

Однако, если мы сможем подобрать некоторую величину, пропорциональную в каждом наблюдении i = 1; n, и разделим на нее обе части уравнения, то гетероскедастичность будет устранена. Например, может оказаться целесообразным предположить, что приблизительно пропорциональна x_i, как в критерии Голдфелда-Квандта .

Тогда: .

Если «повезет», новая случайная составляющая будет иметь постоянную дисперсию. Оценим регрессию новой зависимой переменной на новую независимую переменную . Тогда коэффициент при этой переменной – эффективная оценка параметра b₀, а постоянный член – эффективная оценка параметра b₁ исходного уравнения регрессии: . Дисперсия случайной составляющей в этом уравнении может быть записана как