Избавление от мультиколлинеарности. Метод главных компонент

Обнаружение мультиколлинеарности

Мультиколлинеарность факторов

Определение 3.1. Факторы коллинеарны, если между ними имеется связь, т.е. корреляция.

Определение 3.2. Явление мультипликативности – когда больше чем 2 фактора связаны между собой.

В случае мультиколлинеарности в первоначальном уравнении может быть дублирование, отсюда следует, что независимые факторы должны не зависеть.

О наличии мультиколлинеарности между независимыми факторами, как правило, судят по матрице попарных коэффициентов корреляции.

Считают, что 2 переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если их rxixj>0,7. Неявная зависимость факторов: 0,5< rxixj <0,7 (судят, например, по тому, что связь между незначимыми переменными есть, если Fрасч большое, а t-статистики маленькое).

Включение в модель мультиколлинеарных факторов затрудняется по следующим причинам:

1) Сложно объяснить коэффициенты регрессии с экономической точки зрения, т.к. коррелированы и имеется дубляж переменных.

2) Оценки параметров регрессии не надежны, отсюда следует, что модель не пригодна для анализа и прогнозирования.

О наличии мултиколлинеарности в целом для модели можно судить на основе следующего критерия:

1) Высчитывают определитель матрицы корреляционных парных коэффициентов.

det Rxixj

y=b0+b1x1+b2x2+…+bkxk

(3.2)

Переменные Z1,k - главные компоненты.

Чем ближе det Rxixj к 1, тем меньше коллинеарность факторов.

2) Рассчитывается

(3.1)

где n – количество наблюдений

k – количество факторов

3) Определяется для степеней свободы

4) Если <, то имеет место мультиколлинеарность факторов.

Для устранения мультиколлинеарности существует несколько подходов:

1. Исключение связанных между собой независимых факторов путем отбора мало существенных из них. Для этого необходимо исполнить следующие процедуры:

1) Включение дополнительных факторов

2) Исключение факторов

3) Пошаговая регрессия

При исключении факторов придерживаются следующих принципов (рассматривают только факторы, между которыми доказана мультиколлинеарность):

1) исходя из теоретических предположений о наименьшей информативности факторов

2) убирают самый наименее значимый фактор из мультиколлинеарных на основе t-статистики (t-статистика должна быть наименьшей)

2. Переход к ортогональным переменным с помощью метода главных компонентов.

В данном методе заменяют сильно коррелированные переменные совокупностью новых, между которыми корреляция отсутствует. Но эти переменные являются линейными комбинациями исходных переменных.

3. Подход, учитывающий мультиколлинеарность – метод гребневой регрессии.

В методе гребневой регрессии строятся несколько измененные коэффициенты регрессии МНК.

где

)-1 – обратная матрица

k – количество факторов

Ik+1 – матрица размерности n*m, приведенная к верхнетреугольному виду.

Добавление к диагональным элементам числа S позволяет получить невырожденную матрицу XTX и вместе с тем, оценки Bx будут иметь незначительные смещения. Но это можно компенсировать за счет правильного выбора S (т.е. средне квадратичные ошибки в методе гребневой регрессии будут меньше, чем аналогичные ошибки в МНК-оценках).

Для устранения или уменьшения мультиколлинеарности ис­пользуется ряд методов.

Наиболее распространенные в таких случаях следующие приемы: исключение одного из двух силь­но связанных факторов, переход от первоначальных факторов к их главным компонентам, число которых быть может мень­ше, затем возвращение к первоначальным факторам.

Самый простой из них состоит в том, что из двух объясняющих пере­менных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую пе­ременную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с эконо­мической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование стратегии шагового отбора.

Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии: метод включения факторов и метод исключения – отсев факторов из полного его набора. В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д.

Вторая схема заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Особым случаем мультиколлинеарности при использова­нии временных выборок является наличие в составе перемен­ных линейных или нелинейных трендов. В этом случае рекомендуется сначала выделить и исключить тренды, а затем определить параметры регрессии по остаткам. Игнорирование наличия трендов в зависимой и независи­мой переменных ведет к завышению степени влияния неза­висимых переменных на результирующий признак, что полу­чило название ложной корреляции.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: