Методы устранения гетероскедастичности

Тест Голдфелда-Квандта

Рассматривается связь величин вида у – а + bх. Предполагается, что стандартное отклонение σi = σ(εi) пропорционально значению переменной х в этом наблюдении: п – число наблюдений. Также предполагается, что εi имеет нормальное распределение и отсутствует автокорреляция (будет рассмотрена в дальнейшем). Все п наблюдений упорядочиваются по величине х. Эта упорядоченная выборка делится на три примерно равные части объемов k, п – 2 k и k соответственно. При n = 30 k = 11, при п = 60 k = 22.

Для каждой из выборок объема k оценивается свое уравнение регрессии и находятся суммы квадратов отклонений и соответственно.

Зададим доверительную вероятность р. α = 1 – р. По F -таблицам находим граничную точку где т – число факторов модели.

Статистика F = S3 / S1.

Если F < то на уровне значимости α принимается гипотеза об отсутствии гетероскедастичности. Иначе гипотеза об отсутствии гетероскедастичности отклоняется. Для множественной регрессии тест обычно проводится для того фактора, который в максимальной степени связан с σj. При этом выбирают k > т + 1. Если нет уверенности относительно выбора фактора хj, то данный тест можно осуществить для каждого фактора.

Гетероскедастичность не позволяет получить эффективные оценки коэффициентов уравнения регрессии, что приводит к необоснованным выводам относительно качества этих оценок. Обнаружение гетероскедастичности является достаточно сложной проблемой.

Корректировка гетероскедастичности также является достаточно серьезной проблемой.

Один из возможных методов устранения гетероскедастичности – это метод взвешенных наименьших квадратов (ВНК). Для его применения необходима определенная информация либо обоснованные предположения о величине дисперсий отклонений εi, i = 1,..., п.

Метод взвешенных наименьших квадратов в случае пропорциональности неизвестных дисперсий отклонений квадратам значений независимой переменной.

Рассмотрим случай, когда дисперсии отклонений неизвестны и пропорциональны.

Уравнение линейной регрессии.

Разделим обе части этого уравнения на

Тогда

Обозначим

Тогда.

Для этого уравнения уже выполнено условие гомоскедастичности. Методом наименьших квадратов находим оценки коэффициентов β0, β1 и возвращаемся к исходному уравнению.

В случае, когда число факторов т > 1, исходное уравнение делится на переменную, которая в максимальной степени связана с.

Пример. Для предприятий области анализируется зарплата у в зависимости от количества сотрудников х. Данные по п = 30 предприятиям приведены в таблице 2.

Таблица 2 – Исходная информация для анализа

X у
  75,5 75,5 77,5 78,5    
  80,5   84,5   85,5 86,5
  85,5 88,5        
    93,5 97,5   102,5  
    105,5   110,5   118,5

Уравнение линейной регрессии

Мы видим, что с ростом х разброс значений у увеличивается.

Например, при х = 100 размах вариации переменной у равен 81 – 75,5 = 5,5, а при х = 500 размах вариации переменной у равен 118,5 – 102 = 16,5. Поэтому можно ожидать наличие гетероскедастичности.

Проверим с помощью теста Голдфелда-Квандта гипотезу о наличии гетероскедастичности. Возьмем k = 12.

Доверительная вероятность р = 0,95. Тогда α = 1 – р = 1 – 0,95 = 0,05. У нас число факторов т = 1.

По F-таблицам находим граничную точку = = 2,98.

Воспользуемся надстройкой Пакет анализа пакета Excel. Заполним таблицу 3.

Таблица 3 – Расчет квадрата отклонений случайной величины

хi yi ei  
  75,5 -1,15 1,32
  75,5 -1,15 1,32
  77,5 0,85 0,72
  78,5 1,85 3,42
    3,35 11,22
    4,35 18,92
  80,5 -3,94 15,54
    -2,44 5,96
  84,5 0,06 0,00
    0,56 0,31
  85,5 1,06 1,12
  86,5 2,06 4,24
  85,5 -6,73 45,34
  88,5 -3,73 13,94
    -2,23 4,99
    -1,23 1,52
    2,77 7,65
    3,77 14,19
    -7,03 49,35
  93,5 -6,53 42,58
  97,5 -2,53 6,38
    -1,03 1,05
  102,5 2,47 6,13
    4,97 24,75
    -5,82 33,83
  105,5 -2,32 5,37
    -0,82 0,67
  110,5 2,68 7,20
    7,18 51,60
  118,5 10,68 114,13

Поясним, как заполняется таблица. Значения первых двух столбцов взяты из условия. В третьем столбце указаны отклонения ei (получены с помощью надстройки Пакет анализа пакета Excel). 4-й столбец – это квадраты чисел 3-го столбца. Результаты округляем до двух цифр после запятой.

Суммы квадратов отклонений равны соответственно

и Статистика F = S3/S1 – 343,03/ 64,11 = 5,35.

Так как F > (5,35 > 2,98), то на уровне значимости 5% принимается гипотеза о наличии гетероскедастичности.

Устраним гетероскедастичность. Предположим, что неизвестные дисперсии отклонений пропорциональны

Уравнение линейной регрессии. Разделим обе части этого уравнения на х.

Тогда

Обозначим и перейдем к уравнению Заполним таблицу 4.

Таблица 4 – Расчет переменных

х y t z
  75,5 0,010 0,76
  75,5 0,010 0,76
  77,5 0,010 0,78
  78,5 0,010 0,79
    0,010 0,80
    0,010 0,81
  80,5 0,005 0,40
    0,005 0,41
  84,5 0,005 0,42
    0,005 0,43
  85,5 0,005 0,43
  86,5 0,005 0,43
  85,5 0,003 0,29
  88,5 0,003 0,30
    0,003 0,30
    0,003 0,30
    0,003 0,32
    0,003 0,32
    0,003 0,23
  93,5 0,003 0,23
  97,5 0,003 0,24
    0,003 0,25
  102,5 0,003 0,26
    0,003 0,26
    0,002 0,20
  105,5 0,002 0,21
    0,002 0,21
  110,5 0,002 0,22
    0,002 0,23
  118,5 0,002 0,24

Поясним, как заполняется таблица. Значения первых двух столбцов взяты из условия. В 3-м столбце указываются обратные величины чисел 1-го столбца (результат округляется до трех цифр после запятой). 4-й столбец равен частному 1-го и 2-го столбцов (результат округляется до двух цифр после запятой).

По данным 3-го и 4-го столбцов с помощью пакета Excel найдем β0 ≈ 70,66 и β1 ≈ 0,07. Тогда, то есть у = 70,66 + 0,07 x.

Метод взвешенных наименьших квадратов в случае пропорциональности неизвестных дисперсий отклонений значениям независимой переменной

Рассмотрим случай, когда дисперсии отклонений неизвестны и пропорциональны.

Уравнение линейной регрессии.

Разделим обе части этого уравнения на.

Тогда

Обозначим

Тогда.

Для этого уравнения уже выполнено условие гомоскедастичности. Методом наименьших квадратов находим оценки коэффициентов β0, β1 и возвращаемся к исходному уравнению

На практике имеет смысл применить несколько методов определения гетероскедастичности и способов ее устранения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: