Оценка параметров, оценка адекватности модели

Парная регрессия и корреляция

В регрессионном анализе рассматривается односторонняя стохастическая зависимость случайной переменной у от одной (или нескольких) неслучайной независимой переменной х.

Рассмотрим линейную модель и представим ее в виде

= b ₀ + b ₁ x. (1)

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b ₀, b ₁) используя метод наименьших квадратов (МНК).

Согласно МНК неизвестные параметры b ₀ и b ₁ выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений y_i от значений , найденных по уравнению регрессии (1), была минимальной:

. (2)

На основании необходимого условия экстремума функции двух переменных S = S (b ₀, b ₁) (4) приравняем к нулю ее частные производные, откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии. Затем, разделив обе части уравнений системы на n, получим систему нормальных уравнений в следующем виде:

(3)

где соответствующие средние определяются по формулам:

; (4) ; (6)

; (5) . (7)

Решая систему (3), найдем

, (8)

где - выборочная дисперсия переменной х:

, (9)

- выборочный корреляционный момент или выборочная ковариация:

. (10)

Коэффициент b ₁ называется выборочным коэффициентом регрессии Y по X.

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.

Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.

Если r > 0 (b ₁ > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b ₁ < 0), - обратной.

Формулы для расчета коэффициента корреляции имеют следующий вид:

; (11)

. (12)

Выборочный коэффициент корреляции обладает следующими свойствами:

1.Коэффициент корреляции принимает значения на отрезке [-1: 1], т.е. -1 ≤ r ≥ 1.

2.При r =±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной у будут в большей или меньшей мере отклоняться от функции регрессии j(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

у = j(х) + e,

где e - случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).

1. В модели y_i = b₀ + b₁ x_i + e _i возмущение e _i есть величина случайная, а объясняющая переменная x_i – величина неслучайная.

2. Математическое ожидание возмущения e _i равно нулю:

M (e _i) = 0. (13)

3. Дисперсия возмущения e _i постоянна для любого i:

D (e _i) = s². (14)

4. Возмущения e _i и e _j не коррелированны:

M (e _i e _j) = 0 (i ¹ j). (15)

5. Возмущения e _i есть нормально распределенная случайная величина.

Оценкой модели y_i = b₀ + b₁ x_i + e _i по выборке является уравнение регрессии = b ₀ + b ₁ x. Параметры этого уравнения b ₀ и b ₁ определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии.

Теорема Гаусса-Маркова. Если регрессионная модель
y_i = b₀ + b₁ x_i + e _i удовлетворяет предпосылкам 1-5, то оценки b ₀, b ₁ имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b ₀ и b ₁ в определенном смысле являются наиболее эффективными линейными оценками параметров b₀ и b₁.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.

Нулевая гипотеза Н ₀ – это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.

Коэффициент регрессии (b ₁) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н ₀) о равенстве нулю коэффициента регрессии (Н ₀: b ₁ = 0) против альтернативной гипотезы (Н ₁) о неравенстве нулю коэффициента регрессии (Н ₁: b ₁ ¹ 0). Для проверки гипотезы Н ₀ против альтернативы используется t -статистика, которая имеет распределение Стьюдента с (n - 2) степенями свободы (парная линейная регрессия).

Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н₀), если t _набл > t _a_; _n _-2. В этом случае вероятность нулевой гипотезы будет меньше выбранного уровня значимости. t _a_; _n _-2 - критическая точка, определяемая по математико-статистическим таблицам.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

Согласно основной идее дисперсионного анализа

(16)

или

Q = Q_R + Q_e, (17)

где Q – общая сумма квадратов отклонений зависимой переменной от средней, а Q_R и Q_e – соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 1.

Средние квадраты и s ² (табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров уравнения регрессии; п – число наблюдений.

При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют c²-распределение соответственно с т – 1 и п – т степенями свободы.

Таблица 1

Компоненты дисперсии	Сумма квадратов	Число степеней свободы	Средние квадраты
Объясненная		m – 1
Остаточная		n – m
Общая		n – 1

Поэтому уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики

, (18)

где - табличное значение F -критерия Фишера-Снедекора, определяемое на уровне значимости a при k ₁ = m – 1 и k ₂ = n – m степенях свободы.

Учитывая смысл величин и s ², можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне a (отвергается нулевая гипотеза), если

. (19)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b ₁, который имеет t -распределение Стьюдента с k = n – 2 степенями свободы.

Уравнение парной регрессии или коэффициент регрессии b ₁ значимы на уровне a (иначе – гипотеза Н ₀ о равенстве параметра b ₁ нулю, т.е.
Н ₀: b ₁ = 0, отвергается), если фактически наблюдаемое значение статистики

(20)

больше критического (по абсолютной величине), т.е. | t | > t ₁_- _a_; _n _-₂.

Коэффициент корреляции r значим на уровне a (Н ₀: r = 0), если

. (21)

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:

. (22)

Величина R ² показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R ² = r ².

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2 3 4 5 6 7

Подборка статей по вашей теме: