Проверка общего качества модели множественной регрессии

Оценка качества модели множественной регрессии осуществляется с помощью показателя множественной корреляции и коэффициента детерминации.

Коэффициент (индекс) множественной корреляции оценивает тесноту совместного влияния факторов на результат:

= = ,

где – общая дисперсия результативного признака, – остаточная дисперсия для уравнения , , . Чем ближе к 1 индекс множественной корреляции, тем теснее связь результативного признака со всеми факторами.

Значимость уравнения множественной регрессии в целом устанавливается проверкой гипотезы об общей значимости, т.е. гипотезы о равенстве нулю всех коэффициентов регрессии при объясняющих переменных. Если гипотеза не отклоняется, то совокупное влияние всех факторов считается несущественным, а качество уравнения невысоким. Проверка гипотезы осуществляется на основе дисперсионного анализа сравнения факторной (объясненной) и остаточной дисперсий.

Выдвигаемая гипотеза : при альтернативной гипотезе : проверяется с помощью F -статистики, распределенной (при выполнении предпосылок МНК) по закону Фишера с и степенями свободы (m – число параметров при факторных переменных в уравнении множественной регрессии):

.

Если , то гипотеза отклоняется и считается, что уравнение достаточно качественно отражает динамику изменения зависимой переменной. В противном случае совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

На практике часто проверяют гипотезу о статистической значимостикоэффициента детерминации . Выдвигается гипотеза , для проверки которой используется статистика = , имеющая при выполнении предпосылок МНК распределение Фишера с и степенями свободы. Нулевая гипотеза отклоняется, если .

Если коэффициенты множественной линейной регрессии рассматривать в качестве показателей влияния факторов, то следует иметь в виду, что коэффициенты регрессии в модели между собой прямо несравнимы. Их численные значения зависят от выбранных единиц измерения каждого фактора. Чтобы коэффициенты регрессии стали сравнимы, их приводят к стандартизованному масштабу.

Уравнение множественной регрессии в стандартизованном масштабе имеет вид

,

где , , j = 1, 2, …, m, стандартизованные переменные. Связь между стандартизованными коэффициентами и коэффициентами множественной регрессии описывается соотношениями , j = 1, 2, …, m, . Они сравнимы между собой, поэтому можно ранжировать факторы по силе их воздействия на результат.

Как правило, выводы о ранжировании влияния факторов на результат на основе стандартизованных коэффициентов регрессии дополняются выводами, полученными на основе анализа матрицы парных коэффициентов регрессии.

Средние коэффициенты эластичности для линейной множественной регрессии рассчитываются по формуле и показывают, на сколько процентов в среднем изменяется зависимая переменная с изменением на 1 % фактора при фиксированном значении других факторов. Сравнение показателей эластичности друг с другом позволяет также ранжировать факторы по силе их влияния на результирующий фактор.

Как отмечено выше, корреляционная матрица

для факторов играет важную роль в отборе факторов. Вместе с тем, вследствие взаимодействия факторов, парные коэффициенты корреляции не могут в полной мере решить вопрос о целесообразности включения в модель того или иного фактора.

Это связано с тем, что по величине парных коэффициентов корреляции может быть обнаружена лишь явная коллинеарность факторов. Если же имеется совокупное воздействие факторов друг на друга, то присутствует мультиколлинеарность факторов. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной дисперсии по отдельным факторам с помощью МНК.

Для оценки наличия мультиколлинеарности используется, в частности, определитель матрицы парных коэффициентов корреляции между факторами (определитель матрицы межфакторной корреляции)

.

Чем ближе определитель матрицы межфакторной корреляции к 0, тем сильнее мультиколлинеарность, и наоборот, чем ближе определитель к 1, тем меньше мультиколлинеарность.

Значимость мультиколлинеарности факторов, определяется проверкой нулевой гипотезы при альтернативной гипотезе : 1. При проверке нулевой гипотезы используется статистика , имеющая приближенное распределение с степенями свободы, где n – число наблюдений, m – число факторов. Если , то гипотеза отклоняется и считается, что присутствует мультиколлинеарность факторов.

Выделить факторы, влияющие на мультиколлинеарность, позволяет анализ коэффициентов множественной детерминации, вычисленных при условии, что каждый из факторов рассматривается в качестве зависимой переменной: , , …, . Чем ближе они к 1, тем сильнее мультиколлинеарность факторов. Значит, в уравнении следует оставлять факторы с минимальной величиной коэффициента множественной детерминации.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: