Коэффициент детерминации и качество подгонки модели (goodness-of-fit)

Л2 Оценка качества модели

Оценив конкретную линейную модель, естественно задать вопрос: насколько хорошо оцененная линия регрессии соответствует наблюдениям? Насколько точны полученные нами оценки параметров регрессии? Действительно ли они отражают статистическую связь между переменными или полученными случайным образом?

Для этого необходимо оценить качество полученного уравнения регрессии в целом и каждого параметра, входящего в него.

Коэффициент детерминации и качество подгонки модели (goodness-of-fit)

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной . В каждой выборке может принимать любые значения. Разброс значений в каждой выборке может быть представлен выборочной вариацией .

Рассмотрим величину разброса (вариации) фактора относительно своего среднего значения :

показывает, насколько велики остатки, насколько далеки они от нулевого значения.

показывает, насколько каждое фактическое значение непохоже на теоретическое , чем больше расстояние между ними, тем больше объясняемая сумма квадратов.

показывает, насколько прогнозное значение отличается от среднего.

Если в регрессию включен свободный член и оценки МНК единственны, то:

остатки не прогнозируемы,

сумма фактических значений переменной равно сумме прогнозных значений;

среднее фактических значений равно среднему прогнозных значений переменной.

– разложение общей вариации фактора на объясненную дисперсию и остаточную сумму квадратов

––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––-

Коэффициент детерминации определяется как доля объясненной регрессией суммы квадратов (дисперсии) в общей сумме квадратов (дисперсии) зависимой переменной:

––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––-

Из определения непосредственно следует, что .

Чем точнее прогноз, тем меньше ошибка прогноза и тем меньше RSS.

, следовательно: , , – значения фактора не улучшают прогноза результата по сравнению с тривиальным прогнозом .

, следовательно: , , – «идеальная подгонка» прямой: все данные выборки лежат на одной прямой, и значение фактора позволяет точно предсказывать значения фактора .

Чем ближе R2 к 1, тем лучше качество подгонки модели и тем точнее рассчитываемое значение .

Соответственно величина 1 – R2 характеризует долю дисперсии у, вызванную влиянием остальных не учтенных в модели факторов.

Для случая парной линейной регрессии коэффициент детерминации рассчитывается как квадрат коэффициента корреляции:

В общем случае для линейной модели регрессии коэффициент детерминации представляет собой выборочную корреляцию и рассчитывается по формуле:

Коэффициент детерминации может интерпретироваться в качестве измерителя, демонстрирующего насколько хорошо изменение теоретических значений связана с вариацией изменения фактических значений .

Величина коэффициента детерминации служит одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации ESS, тем соответственно меньше роль прочих факторов, и, следовательно, линейная модель лучше аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака. Однако данный показатель не отражает качества той статистической модели, в которой заинтересован исследователь. Поэтому величина R2 – не самая важная характеристика результатов оценивания.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: