Анализ вариации зависимой переменной. В модели парной линейной регрессии зависимость между переменными в генеральной совокупности представляется в виде

РАЗДЕЛ IV. МОДЕЛЬ ЛИНЕЙНОЙ ПАРНОЙ РЕГРЕССИИ

В модели парной линейной регрессии зависимость между переменными в генеральной совокупности представляется в виде

где X — неслучайная величина, а Y и e — случайные величины.

Величина Y называется объясняемой (зависимой) переменной, а X — объясняющей (независимой) переменной. Постоянные a, b — параметры уравнения.

Наличие случайного члена e (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели и ошибками измерения.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии):

где (а, b) — оценки параметров (a, b).

Коэффициенты a и b вычисляются по формулам:

Для вычисления этих коэффициентов можно воспользоваться функциями Excel:

коэффициент a вычисляется с помощью функции ОТРЕЗОК(изв_значение_y; изв_значение_x);

коэффициент b вычисляется с помощью функции НАКЛОН(изв_значение_y; изв_значение_x).

Линия регрессии (расчетное значение зависимой переменной) имеет вид:

или

Линия регрессии проходит через точку и выполняются равенства: , .

Коэффициент b есть угловой коэффициент регрессии,он показывает, на сколько единиц в среднем изменяется переменная y при увеличении независимой переменной х на единицу. Постоянная a дает прогнозируемое значение зависимой переменной при x = 0. Это может иметь смысл в зависимости от того, как далеко находится x = 0 от выборочных значений x.

После построения уравнения регрессии наблюдаемые значения y можно представить как , где остатки e_i, как и ошибки e_i, являются случайными величинами, однако они, в отличие от ошибок e_i, наблюдаемы.

Выборочные дисперсии величин y, , e вычисляются по формулам:

¾ дисперсия наблюдаемых значений y;

¾ дисперсия расчетных значений y;

¾ дисперсия остатков.

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у.

Пусть на основе выборочных наблюдений построено уравнение регрессии , тогда значение зависимой переменной у в каждом наблюдении можно разложить на две составляющие , где остаток e_i есть та часть зависимой переменной у, которую невозможно объяснить с помощью уравнения регрессии.

Разброс значений зависимой переменной характеризуется выборочной дисперсией . Разложим дисперсию :

Поскольку ,

Замечание. Такое разложение дисперсии верно лишь в том случае, когда константа а включена в уравнение регрессии.

Таким образом, дисперсия разложена на две части:

— часть, объясненную регрессионным уравнением;

— необъясненную часть.

Коэффициентом детерминации R² называется отношение

причем 0 £ R² £ 1, характеризующее долю вариации (разброса) зависимой переменной, объясненную с помощью уравнения регрессии.

Для вычисления коэффициента детерминации можно воспользоваться функцией Excel КВПИРСОН(изв_значение_y; изв_значение_x).

Отношение представляет собой долю необъясненной дисперсии.

Если R ² = 1, то подгонка точная: , , , i = 1,…, n,

т.е. все точки наблюдения лежат на регрессионной прямой.

Если R ² = 0, то регрессия ничего не дает: , , , i = 1,…, n,

т.е. переменная х не улучшает качества предсказания у по сравнению с горизонтальной прямой.

Чем ближе к единице R ², тем лучше качество подгонки, т.е. более точно аппроксимирует y.

Замечание. Вычисление R ²корректно, есликонстанта а включена в уравнение регрессии.

Коэффициент детерминации не указывает причины и следствия. Он просто является математическим выражением взаимосвязи между переменными и показывает степень их взаимосвязанных изменений.

Еще одним показателем взаимосвязи является коэффициент корреляции Пирсона, который вычисляется по формуле , где ¾ коэффициент детерминации.

Для вычисления коэффициента корреляции Пирсона можно воспользоваться функциями ПИРСОН(массив 1; массив 2) или КОРРЕЛ(массив 1; массив 2), где Массив 1 и 2 ¾ это значения x и y, причем порядок роли не играет. (В Excel 2007 этой функции нет и вместо нее нужно использовать КОРРЕЛ(массив1; массив2)).

Коэффициент корреляции Пирсона содержит информацию о поведении у с ростом х. Знак коэффициента Пирсона совпадает со знаком коэффициента b. Чем ближе r к 1, тем ближе связь между х и у к линейной. При линейной взаимосвязи между х и у не существует, но, возможно, есть другая зависимость.

18 19 20 21 22 23 24

Подборка статей по вашей теме: