Критерии качества регрессионной модели

Помимо проверки каждого коэффициента регрессии модели важно знать, насколько она хороша в целом. Для этого вычисляют следующие статистики.

Коэффициент детерминации (R2) – наиболее распространённая статистика для оценки качества модели. R2 рассчитывается по следующей формуле:

где n – число наблюдений; yi — значения объясняемой переменной; — среднее значение объясняемой переменной; i — модельные значения, построенные по оцененным параметрам.

R2 принимает значение от 0 до 1 и показывает долю объяснённой дисперсии объясняемого ряда. Чем ближе R2 к 1, тем лучше модель, тем меньше доля необъяснённого.

Возможные проблемы: Проблемы с использованием R2 заключаются в том, что его значение не уменьшается при добавлении в уравнение факторов, сколь плохи бы они ни были. Поэтому сравнивать модели с разным количеством факторов, используя R2, не имеет смысла.

 

Для более адекватной оценки модели используется скорректированный коэффициент детерминации (Adj R2). Как видно из названия, этот показатель представляет собой скорректированную версию R2, накладывая «штраф» за каждый добавленный фактор:

где k – число факторов, включенных в модель.

Коэффициент Adj R2 также принимает значения от 0 до 1, но никогда не будет больше, чем значение R2.

 

Аналогом t -статистики коэффициента регрессии является статистика Фишера (F -статистика). Однако если t -статистика проверяет гипотезу о незначимости одного коэффициента, то F -статистика проверяет гипотезу о том, что все факторы (кроме константы – свободного члена уравнения регрессии) являются незначимыми. Значение F -статистики также сравнивают с критическим, и для него мы также можем получить вероятность незначимости. Стоит понимать, что данный тест проверяет гипотезу о том, что все факторы одновременно являются незначимыми. Поэтому при наличии незначимых факторов модель в целом может быть значима.

Возможные проблемы: Большинство статистик строится для случая, когда модель включает в себя константу (свободный член уравнения регрессии). При исключении константы из списка оцениваемых коэффициентов некоторые характеристики могут принимать недопустимые значения. Так, R2 и Adj R2 при отсутствии константы могут принимать отрицательные значения. В таком случае их уже не получится интерпретировать как долю, принимающую значение от 0 до 1.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: