Понятие мультиколлинеарности. Методы устранения мультиколлинеарности

Вариант № 2

ТЕОРЕТИЧЕСКОЕ ЗАДАНИЕ

Понятие мультиколлинеарности. Методы устранения мультиколлинеарности.

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.

При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица особенная, т. к. содержит линейно зависимые векторы – столбцы и ее определитель равен нулю, т. е. нарушается предпосылка 6 регрессионного анализа.

В экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица в этом случае является неособенной, но ее определитель очень мал.

Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее некоторые эвристические подходы по ее выявлению.

Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными и выявлении пар переменных, имеющий высокие коэффициенты корреляции (обычно больше 0,8). Если такие переменные существуют, то говорят о мультиколлинеарности между ними.

Другой подход состоит в исследовании матрица . Если определитель матрицы либо ее минимальное собственное значение близки к нулю, то говорят о мультиколлинеарности.

Обычно выделяются следующие последствия мультиколлинеарности:

1. Большие дисперсии (стандартные ошибки) оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

2. Уменьшаются t – статистики коэффициентов, что может привести к неоправданному выводу о существенности объясняющей переменной на зависимую переменную.

3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к изменениям данных, т. е. становятся неустойчивыми.

4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

5. Возможно получение неверного знака у коэффициента регрессии.

Точных количественных критериев для определения наличия (отсутствия) мультиколлинеарности не существует. Тем не менее существуют некоторые рекомендации по выявлению мольтиколлинеарности.

1. В первую очередь анализируют матрицу парных коэффициентов корреляции

точнее ту ее часть, которая относится к объясняющим переменным:

Здесь парный коэффициент корреляции между переменными , ; - парный коэффициент корреляции между Y и . Считается, что наличие коэффициентов превышающих по абсолютной величине 0,75 – 0,8, свидетельствует о наличии мультиколлинеарности.

2. Если определитель матрицы близко к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это свидетельствует о наличии мультиколлинеарности.

3. Коэффициент детерминации достаточно высок, но некоторые из коэффициентов регрессии статистически значимы, т. е. они имеют низкие t – статистики.

4. Высокие частные коэффициенты корреляции свидетельствует о наличии мультиколлинеарности. При изучении многомерных связей необходимо измерять действительную силу линейной связи между двумя переменными, очищенную от влияния на рассматриваемую пару переменных других факторов.

Для устранения или уменьшения мультиколлинеарности используется ряд методов. Самый простой из них состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещенных оценок, определенных по методу наименьших квадратов, к смещенным оценкам, обладающих меньшим рассеянием относительно оцениваемого параметра.

Отметим, что в ряде случаев мультиколлинеарность не является таким уж «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном все зависит от целей исследования.

Если основная задача модели – прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации () наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем коррелированными переменными будут те же отношения, что и ранее).

Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.

Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.

Исключение переменной(ых) из модели

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока Мультиколлинеарность не станет серьезной проблемой.

Получение дополнительных данных или новой выборки

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

Изменение спецификации модели

В ряде случаев проблема мультиколлинеарности модели может быть решена путем изменения спецификации модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

Использование предварительной информации о некоторых параметрах

Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, рассчитанные для каких – либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

При обосновании выбора той или иной модели исследователь сталкивается с рядом трудностей, которые можно разделить на несколько групп. Первая группа трудностей вызвана мультиколлинеарностью переменных, которая существенно проявляется при решении системы (6). Мультиколлинеарность переменных означает, что среди объясняющих переменных имеются явно линейно зависимые (коэффициенты парной корреляции близки к единице). Тогда определитель матрицы системы (6) может быть равен или близок к нулю. Отсюда следует, что оценки b^* коэффициентов множественной линейной регрессии находятся неустойчиво, имеют большие стандартные ошибки. Это не позволяет сделать достоверных выводов о модели в целом. Простейший способ устранения мультиколлинеарности переменных состоит в отбрасывании одной или нескольких переменных, вызывающих мультиколлинеарность.

Вторая группа трудностей вызвана автокорреляцией остатков. Наличие автокорреляции остатков не позволяет применять МНК в указанной выше форме, иначе говоря, полученными оценками коэффициентов b^* пользоваться нельзя. Способ устранения автокорреляции состоит в оценке коэффициентов корреляции между переменными и их явный учет в формулах МНК.

Третья группа трудностей обусловлена наличием гетероскедастичности наблюдений. Она связана с тем, что дисперсия погрешности e_iкаждого наблюдения не одинакова и равна D_i. Для устранения этой трудности необходимо оценить D_i и учесть ее в формуле для функции L(b), а именно вычислять L(b), используя соотношение

L(b) = S(1/ D_i) (y_i- f(b, X_i))².

Одной из причин гетероскедастичности наблюдений является замена переменных в нелинейных моделях. В обоих случаях необходимо изучать выборку остатков.

ПРАКТИЧЕСКОЕ ЗАДАНИЕ

Построить зависимость по двум признакам. Оценить полученные результаты. Объяснить экономический смысл полученных результатов.

Объем производства	Фондоотдача	Объем производства	Фондоотдача
348	0,82	359	0,93
349	0,82	360	0,94
350	0,83	361	0,96
351	0,84	362	0,95
352	0,85	361	0,95
352	0,86	366	0,97
353	0,86	369	0,97
354	0,87	370	0,99
355	0,88	372	0,98
356	0,89	372	1,01
358	0,90	376	1,02
359	0,91	374	1,03
357	0,91	379	1,05
356	0,92

Для построения зависимости воспользуемся методом наименьших квадратов. Уравнение регрессии будем искать в виде линейного уравнения .

Для оценки параметров и уравнения линейной регрессии по методу наименьших квадратов используем систему нормальных уравнений:

Вычислим все необходимые суммы на основании расчетной таблицы:

№ п/п	Объем производства x	Фондоотдача y
1	348	0,82	285,36	121104	0,8891
2	349	0,82	286,18	121801	0,9143
3	350	0,83	290,50	122500	0,929
4	351	0,84	294,84	123201	0,9311
5	352	0,85	299,20	123904	0,9332
6	352	0,86	302,72	123904	0,9437
7	353	0,86	303,58	124609	0,9584
8	354	0,87	307,98	125316	0,9626
9	355	0,88	312,40	126025	0,9815
10	356	0,89	316,84	126736	0,9899
11	358	0,90	322,20	128164	0,9941
12	359	0,91	326,69	128881	1,0109
13	357	0,91	324,87	127449	1,0151
14	356	0,92	327,52	126736	1,0235
15	359	0,93	333,87	128881	1,0319
16	360	0,94	338,40	129600	1,0193
17	361	0,96	346,56	130321	1,0361
18	362	0,95	343,9	131044	0,9731
19	361	0,95	342,95	130321	0,9521
20	366	0,97	355,02	133956	1,0151
21	369	0,97	357,93	136161	1,0487
22	370	0,99	366,30	136900	1,0529
23	372	0,98	364,56	138384	1,0571
24	372	1,01	375,72	138384	1,0613
25	376	1,02	383,52	141376	1,0739
26	374	1,03	385,22	139876	1,0781
27	379	1,05	397,95	143641	1,0844
	9731	24,91	8992,78	3509175