Оценка качества регрессионной модели

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Это объясняется простотой исследования линейной зависимости. Поэтому проверка наличия такой зависимости, оценивание ее индикаторов и параметров является одним из важнейших направлений приложения математической статистики.

Наиболее простым для изучения является случай взаимосвязи двух переменных х и у. Если это реальные статистические данные, то мы никогда не получим простую линию – линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать отклонения зависимой переменной, вызванные ошибками измерения, влиянием неучтенных величин или случайных факторов. Связь переменных, на которую накладываются воздействия случайных факторов, называется статистической связью. Наличие такой связи заключается в том, что изменение одной переменной приводят к изменению математического ожидания другой переменной.

Выделяют два типа взаимосвязей между переменными х и у:

1) переменные равноправны, т.е. может быть не известно, какая из двух переменных является независимой, а какая – зависимой;

2) две исследуемые переменные не равноправны, но одна из них рассматривается как объясняющая (или независимая), а другая как объясняемая (или зависящая от первой).

В первом случае говорят о статистической взаимосвязи корреляционного типа. При этом возникают проблемы оценки связи между переменными. Например, связь показателей безработицы и инфляции в данной стране за определенный период времени. Может стоять вопрос, связаны ли между собой эти показатели, и при положительном ответе на него встает задача нахождения формы связи. Вопрос о наличии связи между экономическими переменными сводится к определению конкретной формулы (спецификации) такой связи, устойчивой к изменению числа наблюдений. Для этого используются специальные статистические методы и, соответственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о наличии или отсутствии линейной связи между переменными.

Во втором случае, когда изменение одной из переменных служит причиной для изменения другой, должно быть оценено уравнение регрессии вида

y = f(x) (8).

Уравнение регрессии – это формула статистической связи между переменными. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Дж. Кейнсом была предложена линейная формула зависимости частного потребления С от располагаемого личного дохода Y_d: С = С₀+b Y_d, где С₀ > 0 – величина автономного потребления, 1> b >0 – предельная склонность к потреблению.

Выбор формулы связи переменных называется спецификацией уравнения регрессии. В данном случае выбрана линейная формула. Далее требуется оценить значения параметров и проверить надежность оценок.

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки линейных параметров регрессий используют метод наименьших квадратов (МНК), который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений y_i результативного признака у от теоретических ŷ_i минимальна, т.е.

(9).

В линейном случае задача сводится к решению следующей системы линейных уравнений:

(10)

Для нахождения а и в воспользуемся готовыми формулами, которые легко получаются решением системы:

(11)

a = `у - b , b = (12)

Оценку качества построенной модели даст коэффициент R²= r_xy² (R²= r_xy² индекс) детерминации, а также средняя ошибка аппроксимации:

` (13)

Традиционно считается, что допустимый предел значений ` А не более 8-10%. В этом случае модель оценивается как достаточно точная, в противном случае говорят о плохом качестве построенной модели.

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии или, как говорят, мерой качества подгонки регрессионной модели к наблюдаемым значениям, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации (0 £ R² £ 1), определяемый по формуле:

(14)

Коэффициент детерминации R² показывает, какая часть (доля) дисперсии результативного признака у обусловлена вариацией объясняющей переменной. Показатель (1-R²) характеризует долю дисперсии у, вызванную влиянием остальных, не учтенных в модели факторов. Например, если R² =0,982, уравнением регрессии объясняется 98,2% результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (так называемая остаточная дисперсия). Чем ближе значение R² к единице, тем большую долю изменения результативного фактора у можно объяснить за счет вариации включенного в модель фактора х, меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные (наблюдения «теснее примыкают» к линии регрессии) и модель можно использовать для прогноза значений результативного признака.

Заметим, что коэффициент детерминации R² имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае верны равенства:

Q = Q_R + Q_e

(15)

Если известен коэффициент детерминации R², то критерий значимости уравнения регрессии или самого коэффициента детерминации может быть записан в виде

(16)

В случае парной линейной модели коэффициент детерминации равен квадрату коэффициента корреляции. Тогда

(17)

Существуют 2 этапа интерпретации уравнения регрессии.

1. Первый состоит в словесном истолковании уравнения так, чтобы оно было понятно человеку, не являющемуся специалистом в области эконометрики и статистики.

2. На втором этапе необходимо решить, следует ли ограничиться первым этапом или провести более детальное исследование зависимости.

1 этап.

Будет проиллюстрирован моделью регрессии для функции спроса, т.е. регрессией между расходами потребителя на питание у и располагаемым личным доходом х по данным, приведенным в таблице 1 для США за период с 1959 по 1983[1]

Таблица 1.

1 2 3 4 5 6 7

Подборка статей по вашей теме: