Обнаружение мультиколинеарности

Одним из простейших методов обнаружения мультиколлинеарности объясняющих переменных является вычисление и анализ выборочных коэффициентов парной корреляции между всеми парами объясняющих переменных: , i, j = 1, 2, …, m (см. формулу (2.33), п. 2.6, тема 2). Если мы расположим все коэффициенты парной корреляции в виде матрицы, то получим матрицу корреляций или корреляционную матрицу:

. (5.8)

Поскольку , j = 1, 2, …, m,то на главной диагонали матрицы R расположены единицы. Кроме того, в матрице R элементы, симметричные относительно главной диагонали, равны между собой: , i, j = 1, 2, …, m.

Если для некоторых индексов i и j (i ¹ j) значение близко к единице, то имеются основания предполагать, что между переменными X_i и X_j существует сильная стохастическая зависимость, близкая к линейной, и, следовательно, имеет место мультиколлинеарность.

Данное правило достаточно обосновано для моделей с двумя объясняющими переменными X ₁ и X ₂. Если объясняющих переменных больше, то вывод о наличии мультиколлинеарности, основанный на близости к единице какого-то коэффициента парной корреляции, может быть ошибочным. Действительно, высокий положительный коэффициент парной корреляции между переменными X_i и X_j может быть не потому, что одна из них стимулирует изменение другой, а потому, что обе эти переменные изменяются в одном направлении под влиянием других переменных, как учтенных в модели, так и, возможно, неучтенных. Поэтому необходимо измерять действительную силу линейной связи между двумя переменными, очищенную от влияния на рассматриваемую пару переменных других факторов. Для измерения такой связи используют так называемый частный коэффициент корреляции (см. п. 3.5, тема 3).

Для оценки мультиколлинеарности объясняющих переменных можно использовать определитель det R корреляционной матрицы R. Пусть основная гипотеза Н₀ состоит в отсутствии мультиколлинеарности. Если выполнены основные предпосылки 1 ⁰ – 6 ⁰ множественного регрессионного анализа (см. п.3.2, тема 3), то доказано, что статистика

(5.9)

при сравнительно небольшом числе наблюдений n имеет приближенно c ²-распределение с k = m (m –1)/2 степенями свободы. Следовательно, выполнение неравенства

означает наличие мультиколлинеарности объясняющих переменных на уровне значимости a.

Пример 5.4. Проверить наличие мультиколлинеарности между мощностью пласта X ₁(м) и уровнем механизации работ X ₂ (%) при добыче угля в шахтах (по данным примера 3.1, тема 3) на уровне значимости 0,01.

Решение. Для расчета коэффициента корреляции между переменными X ₁и X ₂ на основе табл. 3.1 составляем вспомогательную таблицу:

Таблица 5.3

i	x _{1 i}	x _{2 i}

Вычислим вначале все необходимые средние:

;

затем дисперсии:

и средние квадратические отклонения:

Наконец, по формуле (2.33) определяем

Поскольку полученное значение коэффициента корреляции не высокое, то, возможно, мультиколлинеарности переменных X ₁и X ₂ нет. Проверим эту гипотезу по критерию «хи-квадрат».

Корреляционная матрица R в данном случае имеет вид

R = ,

а ее определитель det R = 1 – 0,4875² = 0,238.

По формуле (5.9) рассчитаем значение c ²-статистики:

С помощью табл. 2 Приложения при a = 0,01 и k = m (m –1)/2 = 2×1/2 = 1 находим . Так как (10,77 > 6,635), то гипотеза об отсутствии мультиколлинеарности отвергается на уровне значимости 0,01. g