При оценке параметров уравнения регрессии чаще всего применяется традиционный метод наименьших квадратов. При этом должны выполняться определенные предпосылки относительно случайной составляющей ui и объясняющих переменных хi (предпосылки нормальной линейной модели). Напомним, что ui, имеет смысл отклонения в линейной модели регрессии: .
Третья предпосылка гласит: , i=1;n, что означает постоянство дисперсий случайных составляющих для каждого наблюдения i.
Поясним данную предпосылку на примере. Случайная составляющая ui в каждом наблюдении может иметь только одно значение. Что же означает дисперсия ui? Имеется в виду возможное поведение ui до того, как проведено наблюдение. То есть нет основания apriori ожидать появления особенно больших отклонений в любом наблюдении i=1;n. Иными словами вероятность того, что величина ui примет какое-то данное значение, будет одинакова для всех i. Это условие известно как условие гомоскедастичности, что означает одинаковый разброс.
Вместе с тем, для некоторых выборок можно предположить, что теоретическое распределение случайной составляющей ui является различным для разных наблюдений в выборке, а следовательно, различными будут и дисперсии случайных составляющих. Если дисперсии случайных составляющих неодинаковы в разных наблюдениях: , i, j = 1;n (i ¹ j), говорят, что имеет место гетероскедастичность (т. е. неодинаковый разброс случайных составляющих). Например, если исследуется зависимость расходов на питание в семье от ее общего дохода, то можно ожидать, что разброс данных будет выше для семей с более высоким доходом. Это означает, что дисперсии зависимых величин – расходов на питание, (а следовательно, и случайных ошибок) не постоянны для отдельных значений объясняющей переменной – дохода.
|
|
Гетероскедастичность может иметь место и при использовании в качестве данных наблюдений временных рядов (хt, уt). Если значения хt и уt увеличиваются со временем, то, возможно, и дисперсия случайной составляющей также будет расти со временем.
Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 2.2).
Рис. 2.2. Корреляционное поле. Случаи гетероскедастичности
На рис. 2.2, а дисперсия случайных составляющих растет по мере увеличения х. На рис. 2.2, б дисперсия случайных составляющих достигает максимальной величины при средних значениях х и уменьшается при минимальных и максимальных значениях х.
Кроме того, наличие гетероскедастичности можно проследить из графика зависимости остатков еi от расчетного значения признака-результата . Гетероскедастичность, соответствующая полю корреляции а на рис. 2.2, приведена на рис. 2.3, а, гетероскедастичность, соответствующая полю корреляции б на рис. 2.2, приведена на рис. 2.3, б.
|
|
Рис. 2.3. Графики зависимости остатков от теоретических значений результата.
Случаи гетероскедастичности
Последствия гетероскедастичности:
- оценки параметров уравнения регрессии становятся неэффективными;
- оценки стандартных ошибок параметров регрессии будут неверными. (Например, оценки стандартных ошибок могут оказаться заниженными. Тогда значения t -критерия окажутся завышенными. Мы решим, что параметр регрессии значим, а на самом деле это будет не так. То есть могут быть получены неверные выводы о надежности уравнения регрессии.)
Обнаружение гетероскедастичности. Наиболее популярным является тест Голдфелда-Квандта.
Данный тест используется для проверки следующего типа гетероскедастичности: когда среднее квадратическое отклонение случайной составляющей пропорционально значению признака-фактора хi в i -м наблюдении. При этом делается предположение, что случайная составляющая ui распределена нормально.
Алгоритм-тест Голдфелда-Квандта приведен ниже.
Все наблюдения i = 1; n упорядочиваются по значению xi.
Оценивается регрессия: (i = 1; n ‘) для первых n' наблюдений.
Оценивается регрессия: (i = n –(n’ + 1); n) для последних n' наблюдений. (n' < n/2).
Рассчитывают суммы квадратов отклонений фактических значений признака-результата от его расчетных значений для обеих регрессий:
и .
Находят отношение сумм квадратов отклонений: S1/S2 (или S2/S1). В числителе должна быть наибольшая из сумм квадратов отклонений. Данное отношение имеет F -распределение со степенями свободы: k1=n’-h и k2=n’-h, где h – число оцениваемых параметров в уравнении регрессии.
Если , то гетероскедастичность имеет место.
Если в модели более одного фактора, то наблюдения должны упорядочиваться по тому фактору, который, как предполагается, теснее связан с , и n’ должно быть больше, чем h.
Устранение гетероскедастичности. Для этого нужно найти способ придать наибольший вес наблюдению i, у которого среднее квадратическое отклонение случайной составляющей максимально (такие наблюдения обладают самым низким качеством); и малый вес наблюдению, у которого среднее квадратическое отклонение случайной составляющей минимально (такие наблюдения обладают самым высоким качеством). Тогда мы получим более точные (эффективные) оценки параметров уравнения регрессии: .
Разделим правую и левую части уравнения на . Получим: .
Введем новые переменные:
.
Тогда уравнение регрессии примет вид:
.
Преобразованное уравнение относится к двухфакторному уравнению регрессии (1-й фактор – X, 2-й фактор — v). Данное уравнение представляет собой так называемую взвешенную регрессию (с весами ). При этом наблюдениям высокого качества с меньшими придаются большие веса и наоборот. Случайная составляющая в i -м наблюдении – имеет постоянную дисперсию:
т. е. модель будет гомоскедастичной.
Данный способ устранения гетероскедастичности применим, если известны фактические значения , что не встречается на практике.
Однако, если мы сможем подобрать некоторую величину, пропорциональную в каждом наблюдении i = 1; n, и разделим на нее обе части уравнения, то гетероскедастичность будет устранена. Например, может оказаться целесообразным предположить, что приблизительно пропорциональна xi, как в критерии Голдфелда-Квандта .
Тогда: .
Если «повезет», новая случайная составляющая будет иметь постоянную дисперсию. Оценим регрессию новой зависимой переменной на новую независимую переменную . Тогда коэффициент при этой переменной – эффективная оценка параметра b0, а постоянный член – эффективная оценка параметра b1 исходного уравнения регрессии: . Дисперсия случайной составляющей в этом уравнении может быть записана как
|
|
То есть она будет постоянна для всех наблюдений. Следовательно, гетероскедастичность в преобразованном уравнении регрессии отсутствует.