double arrow

Обнаружение гетероскедастичности

3

Не существует какого-либо однозначного метода определения гетероскедастичности. При этом разработано большое число различных тестов и критериев. Рассмотрим наиболее популярные из них.

3.1. Тест ранговой корреляции Спирмена. Выдвигается Ho об отсутствии гетероскедастичности случайного члена. Предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения Х, и поэтому в регрессии по МНК абсолютные величины остатков и значения Х будут коррелированны. Схема теста:

1) данные по Х и остатки ранжируются по Х и определяются их ранги;

2) коэффициент ранговой корреляции Спирмена определяется по формуле

, где Di - разность между рангами Х и ;

3) Статистический критерий имеет распределение Стьюдента, т.к. .

Если , H0 об отсутствии гетероскедастичности будет отклонена.

Если в модели регрессии имеется более одной объясняющей переменной, то проверка гипотезы может выполняться с использованием любой из них.

Пример.Исследуется зависимость между доходом (Х) домохозяйства и его расходом (Y) на продукты питания. Выборочные данные по 40 домохозяйствам даны в таблице.

x 25,5 26,5 27,2 29,6 35,7 38,6 39,3 41,9
y 14,5 11,3 14,7 10,2 13,5 9,9 12,4 8,6 10,3 13,9
x 42,5 44,2 44,8 45,5 45,5 48,3 49,5 52,3 55,7
y 14,9 11,6 21,5 10,8 13,8 18,2 19,1 16,3 17,5
x 61,7 62,5 64,7 69,7 71,2 73,8 74,7 75,8 76,9
y 10,9 16,1 10,5 10,6 8,2 14,3 21,8 26,1
x 79,2 81,5 82,4 82,8 85,9 86,4 86,9 88,3
y 19,8 21,2 17,3 23,5 18,3 13,7 14,5 27,3

Решение

1. Строим уравнение регрессии и определяем остатки.


  ВЫВОД ИТОГОВ                
                     
  Регрессионная статистика                
  Множественный R 0,564649                
  R-квадрат 0,318828                
  Нормированный R-квадрат 0,300903                
  Стандартная ошибка 4,672041                
  Наблюдения                
                     
  Дисперсионный анализ              
  df SS MS F Значимость F        
  Регрессия 388,2371 388,2371 17,786 0,0001        
  Остаток 829,4627 21,82796            
  Итого 1217,7              
                     
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%  
  Y-пересечение 7,040019 2,322793 3,030842 0,0044 2,3378 11,742 2,3378 11,74  
  х 0,156883 0,037199 4,217372 0,0001 0,0816 0,2322 0,0816 0,232  
                     

  ВЫВОД ОСТАТКА  
       
  Наблюдение Предсказанное у Остатки
  11,04054 3,459461
  11,19742 0,102578
  11,30724 3,39276
  11,68376 -1,48376
  12,64075 0,859253
  13,09571 -3,19571
  13,15846 -0,75846
  13,20553 -4,60553
  13,31534 -3,01534
  13,61342 0,286578
  13,70755 1,192448
  13,97425 -2,37425
  14,06838 7,431617
  14,1782 -3,3782
  14,1782 -0,3782
  14,61747 1,382526
  14,80573 3,394266
  15,24501 3,854994
  15,77841 0,521591
  16,29612 1,203877
  16,60989 -5,70989
  16,71971 -0,61971
  16,84521 -6,34521
  17,19036 -6,59036
  17,97477 11,02523
  18,2101 -10,0101
  18,61799 -4,31799
  18,75919 3,040812
  18,93176 7,16824
  19,10433 0,895669
  19,46516 0,334838
  19,82599 1,374006
  19,96719 9,032812
  20,02994 -2,72994
  20,06132 3,438682
  20,51628 1,483721
  20,59472 -2,29472
  20,67316 -6,97316
  20,8928 -6,3928
  21,00262 6,297383

2. Значения хi уже упорядочены по возрастанию, поэтому определяем ранги хi и ранги соответствующих остатков.

х ABS(e) ранг х ранг е D
25,5 3,459461 -25
26,5 0,102578
27,2 3,39276 -20
29,6 1,48376 -11
35,7 0,859253 -3
38,6 3,195708 -15
0,758461
39,3 4,605526 -21
3,015344 -10
41,9 0,286578
42,5 1,192448
44,2 2,374253 -5
44,8 7,431617 -24
45,5 3,378201 -8
45,5 0,378201
48,3 1,382526
49,5 3,394266 -7
52,3 3,854994 -9
55,7 0,521591
1,203877
5,70989 -9
61,7 0,619708
62,5 6,345214 -9
64,7 6,590357 -10
69,7 11,02523 -15
71,2 10,0101 -13
73,8 4,317994 -1
74,7 3,040812
75,8 7,16824 -7
76,9 0,895669
79,2 0,334838
81,5 1,374006
82,4 9,032812 -5
82,8 2,729942
3,438682
85,9 1,483721
86,4 2,294721
86,9 6,973162
88,3 6,392799
6,297383

3. Определяем коэффициент корреляции Спирмена и t-статистику

4. Т.к. tкр(0,05;38)=2,021 < , то гетероскедастичность доказана.

3.2. Метод Голдфелда-Квандта. При проведении проверки по этому тесту предполагается, что стандартное отклонение случайного члена пропорционально значению независимой переменной Х. Схема теста:

1) все n наблюдений упорядочиваются по возрастанию переменной Х;

2) оцениваются отдельные регрессии для первых m и для последних m наблюдений. Средние (n-2m) наблюдений отбрасываются ();

3) составляется статистика , где S1, S2 – суммы квадратов остатков для первых и последних наблюдений;

4) Если , Ho об отсутствии гетероскедастичности отклоняется (если обратно пропорционально Х, то ).

Пример. Воспользуемся условием предыдущего примера и определим наличие гетероскедастичности остатков с помощью теста Голдфелда-Квандта.

Решение.

1) Упорядоченные по возрастанию х данные хi и уi разбиваются на три приблизительно равные части. Для первой и последней строятся уравнения регрессии и рассчитывается F-статистика.

1-я часть 2-я часть

         
х у   x y
25,5 14,5   73,8 14,3
26,5 11,3   74,7 21,8
27,2 14,7   75,8 26,1
29,6 10,2   76,9
35,7 13,5   79,2 19,8
38,6 9,9   81,5 21,2
12,4   82,4
39,3 8,6   82,8 17,3
10,3   23,5
41,9 13,9   85,9
42,5 14,9   86,4 18,3
44,2 11,6   86,9 13,7
44,8 21,5   88,3 14,5
45,5 10,8   27,3
         

  ВЫВОД ИТОГОВ              
                     
  Регрессионная статистика                
  Множественный R 0,11                  
  R-квадрат 0,012                  
  Нормированный R-квадрат -0,07                  
  Стандартная ошибка 3,335                  
  Наблюдения                  
                     
  Дисперсионный анализ              
  df SS MS F Значимость F          
  Регрессия 1,6285 1,628 0,146 0,7087          
  Остаток 133,5 11,12              
  Итого 135,12                
                     
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%  
  Y-пересечение 10,87 4,926 2,206 0,048 0,1351 21,6 0,135078 21,60065  
  х 0,05 0,1304 0,383 0,709 -0,234 0,334 -0,23415 0,3339  
                                                         
  ВЫВОД ИТОГОВ                
                       
  Регрессионная статистика                  
  Множественный R 0,039                  
  R-квадрат 0,002                  
  Нормированный R-квадрат -0,082                
  Стандартная ошибка 4,992                  
  Наблюдения                  
                       
  Дисперсионный анализ                
  df SS MS F Значимость F          
  Регрессия 0,4598 0,46 0,018 0,8942          
  Остаток 299,09 24,92              
  Итого 299,55                
                       
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%    
  Y-пересечение 23,63 22,15 1,067 0,307 -24,63 71,89 -24,6287 71,89183    
  x -0,037 0,27 -0,136 0,894 -0,625 0,552 -0,62485 0,551522    
                                         


2) Т.к. , то нет оснований отвергать Н0 об отсутствии гетероскедастичности.

3.3. Тест Глейзера. Тест Глейзера основывается на более общих представлениях о зависимости стандартной ошибки случайного члена от значений объясняющей переменной. Предположение о пропорциональности и Х снимаем и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма, например, . Чтобы использовать этот метод:

1) оценивают регрессию Y по Х и вычисляют – абсолютные значения остатков;

2) оценивают регрессию по для нескольких значений : ;

3) если Н0: b = 0 отклоняется (т.е. b значим), то гипотеза об отсутствии гетероскедастичности будет отклонена.

Если при оценивании более чем одной функции получается значимая оценка b, то ориентиром при определении характера гетероскедастичности может служить лучшая из них.

Пример. Воспользуемся расчетами предыдущего примера и проверим наличие гетероскедастичности с помощью теста Глейзера.

Решение

1) Рассчитаем уравнения регрессии еi от при .

х ABS(e) x^(-1) x^(-0,5) x^0,5 x^1,5
25,5 3,459461 0,039216 0,19803 5,049752 128,7687
26,5 0,102578 0,037736 0,194257 5,147815 136,4171
27,2 3,39276 0,036765 0,191741 5,215362 141,8578
29,6 1,48376 0,033784 0,183804 5,440588 161,0414
35,7 0,859253 0,028011 0,167365 5,974948 213,3056
38,6 3,195708 0,025907 0,160956 6,21289 239,8175
0,758461 0,025641 0,160128 6,244998 243,5549
39,3 4,605526 0,025445 0,159516 6,268971 246,3706
3,015344 0,025 0,158114 6,324555 252,9822
41,9 0,286578 0,023866 0,154487 6,473021 271,2196
42,5 1,192448 0,023529 0,153393 6,519202 277,0661
44,2 2,374253 0,022624 0,150414 6,648308 293,8552
44,8 7,431617 0,022321 0,149404 6,69328 299,859
45,5 3,378201 0,021978 0,14825 6,745369 306,9143
45,5 0,378201 0,021978 0,14825 6,745369 306,9143
48,3 1,382526 0,020704 0,143889 6,94982 335,6763
49,5 3,394266 0,020202 0,142134 7,035624 348,2634
52,3 3,854994 0,01912 0,138277 7,231874 378,227
55,7 0,521591 0,017953 0,13399 7,463243 415,7026
1,203877 0,016949 0,130189 7,681146 453,1876
5,70989 0,016393 0,128037 7,81025 476,4252
61,7 0,619708 0,016207 0,127309 7,854935 484,6495
62,5 6,345214 0,016 0,126491 7,905694 494,1059
64,7 6,590357 0,015456 0,124322 8,043631 520,4229
69,7 11,02523 0,014347 0,11978 8,348653 581,9011
71,2 10,0101 0,014045 0,118511 8,438009 600,7863
73,8 4,317994 0,01355 0,116405 8,590693 633,9931
74,7 3,040812 0,013387 0,115702 8,642916 645,6258
75,8 7,16824 0,013193 0,114859 8,70632 659,939
76,9 0,895669 0,013004 0,114035 8,769265 674,3564
79,2 0,334838 0,012626 0,112367 8,899438 704,8355
81,5 1,374006 0,01227 0,11077 9,027735 735,7604
82,4 9,032812 0,012136 0,110163 9,077445 747,9814
82,8 2,729942 0,012077 0,109897 9,099451 753,4345
3,438682 0,012048 0,109764 9,110434 756,166
85,9 1,483721 0,011641 0,107896 9,268225 796,1406
86,4 2,294721 0,011574 0,107583 9,29516 803,1018
86,9 6,973162 0,011507 0,107273 9,322017 810,0833
88,3 6,392799 0,011325 0,106419 9,396808 829,7381
6,297383 0,011236 0,106 9,433981 839,6243
ВЫВОД ИТОГОВ          
             
Регрессионная статистика          
Множественный R 0,347879          
R-квадрат 0,12102          
Нормированный R-квадрат 0,097889          
Стандартная ошибка 2,732943          
Наблюдения          
             
Дисперсионный анализ        
df SS MS F Значимость F  
Регрессия 39,07716 39,07716 5,23193 0,027833  
Остаток 283,8211 7,468976      
Итого 322,8983        
             
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 8,7119 2,294002 3,797686 0,000512 4,067936 13,35586
x^(-0,5) -37,7515 16,50452 -2,28734 0,027833 -71,1631 -4,33981
             
ВЫВОД ИТОГОВ          
             
Регрессионная статистика          
Множественный R 0,35414          
R-квадрат 0,125415          
Нормированный R-квадрат 0,1024          
Стандартная ошибка 2,726101          
Наблюдения          
             
Дисперсионный анализ        
df SS MS F Значимость F  
Регрессия 40,49641 40,49641 5,449198 0,024963  
Остаток 282,4019 7,431628      
Итого 322,8983        
             
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение -2,15816 2,486641 -0,8679 0,390897 -7,1921 2,875785
x^0,5 0,754429 0,323186 2,334352 0,024963 0,100174 1,408685
ВЫВОД ИТОГОВ          
             
Регрессионная статистика          
Множественный R 0,351385          
R-квадрат 0,123472          
Нормированный R-квадрат 0,100405          
Стандартная ошибка 2,729129          
Наблюдения          
             
Дисперсионный анализ        
df SS MS F Значимость F  
Регрессия 39,8688 39,8688 5,35285 0,026194  
Остаток 283,0295 7,448144      
Итого 322,8983        
             
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 0,58244 1,356838 0,429263 0,670156 -2,16433 3,329215
х 0,050274 0,02173 2,313623 0,026194 0,006285 0,094263
             
ВЫВОД ИТОГОВ          
             
Регрессионная статистика          
Множественный R 0,345728          
R-квадрат 0,119528          
Нормированный R-квадрат 0,096358          
Стандартная ошибка 2,735261          
Наблюдения          
             
Дисперсионный анализ        
df SS MS F Значимость F  
Регрессия 38,59537 38,59537 5,158668 0,02888  
Остаток 284,3029 7,481655      
Итого 322,8983        
             
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 1,504832 1,002367 1,501278 0,141548 -0,52435 3,534019
x^1,5 0,004324 0,001904 2,27127 0,02888 0,00047 0,008178
ВЫВОД ИТОГОВ          
             
Регрессионная статистика          
Множественный R 0,338157          
R-квадрат 0,11435          
Нормированный R-квадрат 0,091044          
Стандартная ошибка 2,743292          
Наблюдения          
             
Дисперсионный анализ        
df SS MS F Значимость F  
Регрессия 36,92349 36,92349 4,906351 0,032827  
Остаток 285,9748 7,525652      
Итого 322,8983        
             
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 5,973455 1,173304 5,091141 9,98E-06 3,598226 8,348684
x^(-1) -124,996 56,43102 -2,21503 0,032827 -239,235 -10,7577

2) Т.к. коэффициент b статистически значим во всех уравнениях, то гетероскедастичность доказана. Наилучший коэффициент детерминации (R2 = 0,1254) при , поэтому примем зависимость: (см. далее).

3.4. Тест Парка.Тест относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функцией . Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t-критерию Стьюдента. Если коэффициент регрессии окажется статистически значимым, то, следовательно, имеет место гетероскедастичность.

Пример. По данным предыдущего примера построим регрессию .

  ВЫВОД ИТОГОВ          
               
  Регрессионная статистика          
  Множественный R 0,343033          
  R-квадрат 0,117672          
  Нормированный R-квадрат 0,094453          
  Стандартная ошибка 2,097694          
  Наблюдения          
               
  Дисперсионный анализ        
  df SS MS F Значимость F  
  Регрессия 22,30024 22,30024 5,067869 0,030238  
  Остаток 167,2121 4,400319      
  Итого 189,5124        
               
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
  Y-пересечение -6,49359 3,634358 -1,78672 0,081962 -13,851 0,863782
  lnx 2,027965 0,90084 2,251193 0,030238 0,204309 3,851621

Так как коэффициент регрессии статистически значим, то гетероскедастичность доказана.

3.5. Тест Уайта. Предполагается, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора , или при р факторах

.

О наличии или отсутствии гетероскедастичности остатков судят по величине F-критерия Фишера. Если фактическое значение критерия выше табличного, то, следовательно, существует корреляционная связь дисперсии ошибок от значений факторов, и имеет место гетероскедастичность остатков.

Пример. Определим квадратичную функцию для нашего примера . Пусть х1 = х, х2 = х2, построим уравнение множественной регрессии

  ВЫВОД ИТОГОВ          
               
  Регрессионная статистика          
  Множественный R 0,353257          
  R-квадрат 0,12479          
  Нормированный R-квадрат 0,077482          
  Стандартная ошибка 27,61916          
  Наблюдения          
               
  Дисперсионный анализ        
  df SS MS F Значимость F  
  Регрессия 4024,315 2012,157 2,637794 0,084932  
  Остаток 28224,27 762,8181      
  Итого 32248,59        
               
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
  Y-пересечение -38,76 44,00045 -0,8809 0,384058 -127,913 50,39338
  х 1,674985 1,618236 1,035069 0,307355 -1,60387 4,953843
  х^2 -0,01017 0,013621 -0,74683 0,459886 -0,03777 0,017426

Так как уравнение статистически не значимо по F-критерию, то гетероскедастичность остатков отсутствует.

3

Сейчас читают про: