При анализе качества модели регрессии, в первую очередь, используется коэффициент детерминации, который определяется следующим образом:
Где - среднее значение зависимой переменной
- предсказанное (рассчитанное по уравнению регрессии) значение зависимой переменной.
Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов, включенных в модель.
Чем ближе к R2 к1, тем выше качество модели.
Основная проблема применения (выборочного) R2заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют.
Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику R2обычно используется скорректированный коэффициент детерминации.
|
|
Скорректированный коэффициент детерминации позволяет учесть при оценке качества модели соотношение количества наблюдений и количества оцениваемых параметров модели.
где R2 – коэффициент детерминации, n – общее число наблюдений, k – число объясняющих переменных (число параметров модели регрессии без учета свободного члена).
Скорректированный коэффициент детерминации применяется для решения двух типов задач:
– оценка тесноты связи между объясняемой и объясняющей переменной. Необходимо обратить внимание на близость к нескорректированному коэффициенту детерминации. Модель считается качественной, если показатели велики и несильно отличаются друг от друга.
– сравнение моделей с различным числом параметров. При прочих равных условиях, предпочтение отдается той модели, у которой скорректированный коэффициент детерминации больше.