Уравнение множественной регрессии

На практике изменение результативного признака y зачастую зависит от действия нескольких факторных признаков x, поэтому изучение связи между тремя признаками и более носит название множественной (многофакторной) регрессии. Аналитическое выражение связи между результативным признаком y и факторными признаками (x ₁, x ₂, …, x_k) описывается функцией вида

Уравнение множественной регрессии описывает математическую зависимость результативного признака от нескольких факторных признаков.

При построении уравнения множественной регрессии необходимо решить следующие задачи:

· обосновать взаимосвязь результативного признака и факторных признаков;

· определить тип уравнения регрессии;

· количественно оценить тесноту связи между результативным признаком и факторами.

Построение моделей множественной регрессии включает три этапа:

1) выбор формы связи (уравнения регрессии);

2) отбор факторных признаков;

3) обеспечение достаточного объема совокупности.

Выбрать тип уравнения довольно сложно, так как любой форме связи могут соответствовать несколько уравнений, описывающих эти связи.

Проблема отбора факторных признаков может быть решена на основе интуитивно-логических или многомерных математико-статистических методов. Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия. Она заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. Если при включении нового фактора в уравнение коэффициенты регрессии меняют свои значения и знаки, а множественный коэффициент корреляции не возрастает, то данный факторный признак не рекомендуется включать в уравнение связи.

Многофакторные регрессионные модели делятся на линейные (относительно независимых переменных) и нелинейные.

Наиболее простым для построения и анализа является линейное уравнение множественной регрессии:

где a ₀ – свободный член;

a ₁, a ₂, …, a_k – коэффициенты регрессии (параметры модели);

x ₁, x ₂, …, x_k – факторные признаки.

Параметры уравнения можно определить методом наименьших квадратов. Если связь между признаками является нелинейной, то выбранная для ее описания нелинейная многофакторная модель (показательная, степенная и т. д.) сводится к линейной путем линеаризации.

При использовании уравнения регрессии в решении конкретной задачи необходимо учитывать следующие условия построения уравнения регрессии:

· однородность исходных данных;

· небольшое число рассматриваемых переменных;

· отсутствие дублирующих переменных.

Для проверки достоверности уравнения регрессии применяется соотношение

где – стандартная ошибка регрессии;

m – число факторных признаков в уравнении
регрессии.

Считается, что если значение величины k не превысит
10–15 %, то уравнение регрессии достаточно хорошо отображает изучаемую совокупность.

10.5. Показатели тесноты связи
между количественными признаками

Статистическое изучение взаимосвязей социально-экономи-
ческих явлений предполагает измерение тесноты (силы) и направления связи. Нахождение уравнения регрессии сопровождается измерением тесноты связи между признаками. Связь между количественными признаками измеряется через их вариацию. При измерении тесноты корреляционной связи ставится задача – определить, в какой мере вариация результативного признака вызвана вариацией факторного признака.

Теснота связи между количественными признаками измеряется с помощью следующих показателей:

· линейного коэффициента корреляции Пирсона r_xy;

· эмпирического h _эмп и теоретического корреляционного отношения h _теор;

· коэффициента Фехнера K _Ф;

· ранговых коэффициентов связи Спирмена (ρ) и Кендалла (τ);

· коэффициента конкордации W.

Линейный коэффициент корреляции r_xy применяется для измерения тесноты парной линейной связи. При расчете коэффициента учитывается величина отклонений признаков от средних значений:

После преобразования данной формулы можно получить следующее выражение для расчета линейного коэффициента корреляции:

В статистике используются различные модификации формулы расчета данного коэффициента:

;

где a ₁ – коэффициент регрессии в уравнении связи;

s _x, s _y – среднее квадратическое отклонение соответствующего фак-
торного признака. Знаки коэффициентов регрессии и кор-
реляции совпадают.

Линейный коэффициент корреляции может принимать значе-
ния от –1 до +1: –1 £ r £ +1. Знак «минус» означает, что связь об-
ратная, а знак «плюс» свидетельствует о наличии прямой связи.

Интерпретация значений коэффициента корреляции представлена в табл. 10.2.

Таблица 10.2

Оценка линейного коэффициента корреляции r

Значение коэффициента r	Характер связи	Интерпретация связи
–1 < r < 0	Обратная	С увеличением x уменьшается y, и наоборот
r = 0	Отсутствует	–
0 < r < 1	Прямая	С увеличением x увеличивается y
r = 1	Функциональная	Каждому значению факторного признака строго соответствует одно значение результативного признака

Таким образом, линейный коэффициент парной корреляции одновременно характеризует тесноту и направление связи. Коэффициент корреляции является симметричной мерой связи между признаками x и y, т. е. r_xy = r_yx.

Рассмотрим порядок проверки коэффициента корреляции
на значимость (существенность). Коэффициент корреляции
является выборочным показателем, поэтому он может содержать случайную ошибку, и не всегда однозначно отражать
реальную связь между изучаемыми показателями. Поэтому,
для того чтобы оценить существенность (значимость) самого коэффициента и реальность измеряемой связи, необходимо рассчитать среднюю квадратическую ошибку коэффициента кор-
реляции s _r.

Для оценки существенности (значимости) линейного коэффициента корреляции необходимо сопоставить его со средней квадратической ошибкой:

Если число наблюдений n £ 30, то средняя ошибка линейного коэффициента корреляции определяется по формуле

Значимость линейного коэффициента корреляции проверяется на основе t -критерия Стьюдента:

При этом выдвигается и проверяется нулевая гипотеза
(H ₀: r_xy = 0) о равенстве коэффициента корреляции нулю (гипоте-
за об отсутствии связи между х и у в генеральной совокупности).

Если нулевая гипотеза верна, т. е. r = 0, то распределение
t -критерия подчиняется закону Стьюдента с заданными параметрами: уровнем значимости a (обычно принимается за 0,05)
и числом степеней свободы n = n – 2.

По таблице распределения Стьюдента (приложение 5) находится критическое значение t _табл, которое допустимо при справедливости нулевой гипотезы. С этим значением сравнивается фактическое (расчетное) значение t _расч.

При этом, если t _расч > t _табл, то нулевая гипотеза отвергается, что свидетельствует о значимости линейного коэффициента корреляции. Следовательно, связь между х и у является статистически существенной (реальной).

Если t _расч < t _табл, то нулевая гипотеза не отвергается. Коэффициент корреляции считается незначимым (значение r ¹ 0 получено случайно), связь между х и у отсутствует.

Величина r ² носит название коэффициента детерминации. Он показывает, в какой степени результативный признак зависит от факторного признака. Очевидно, что чем ближе коэффициент к 100 %, тем теснее выявленная зависимость между признаками.

С помощью линейного коэффициента связи r и коэффициента детерминации r ² можно определить тесноту линейной связи между двумя признаками (табл. 10.3).

Таблица 10.3

1 2 3 4 5 6

Подборка статей по вашей теме: