Естественным обобщением линейной регрессии с двумя переменными является многомерная регрессионная модель (multiple regression model) или модель множественной регрессии:

где уi – значение признака-результата (зависимой переменной) для i -го наблюдения;
хji – значение j -го фактора (независимей или объясняющей переменной) (j = 1;т) для i -го наблюдения;
иг – случайная составляющая результативного признака для i -го наблюдения;
bо – свободный член, который формально показывает среднее значение у при х1 = х2 =... = хт = 0;
bj – коэффициент «чистой» регрессии при j-m факторе (j=1,m). Он характеризует среднее изменение признака-результата у с изменением соответствующего фактора хj. на единицу, при условии, что прочие факторы модели не изменяются и фиксированы на средних уровнях.
Обычно для многомерной регрессионной модели делаются следующие предпосылки.
1.
– детерминированные (нестохастические) переменные.
2.
, (i = 1, n) – математическое ожидание случайной составляющей равно 0 в любом наблюдении.
3.
, (i = 1, n) – теоретическая дисперсия случайной составляющей; постоянна для всех наблюдений.
4.
– отсутствие систематической связи между значениями случайной составляющей в любых двух наблюдениях.
5. Часто добавляется условие:
, т. е.
– нормально распределенная случайная величина.
Модель линейной множественной регрессии, для которой выполняются данные предпосылки, называется нормальной линейной регрессионной (Classical Normal Regression model).
В матричной форме нормальная (классическая) регрессионная, модель имеет вид:
,
где Y – случайный вектор-столбец размерности (n ´1) наблюдаемых значений результативного признака;
X – матрица размерности (n ´(m +1)) наблюдаемых значений факторных признаков. Добавление 1 к общему числу факторов т учитывает свободный член b0 в уравнении регрессии. Значения фактора х0 для свободного члена принято считать равным единице;
b – вектор-столбец размерности ((т +1)´1) неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии);
и – случайный вектор-столбец размерности (n´1) ошибок наблюдений.

Предпосылки данной модели:
1)
– детерминированные (нестохастические) переменные, т. е. ранг матрицы X равен т+1<n;
2)
;
3,4) ковариационная матрица должна иметь вид:
,
где
– дисперсия случайной составляющей;
I – единичная матрица размером п´п;
5)
.
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.
1. Они должны быть количественно измеримы. Если не обходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).
2. Каждый фактор должен быть достаточно тесно связан с результатом (т. е. коэффициент парной линейной корреляции между фактором и результатом должен существенно отличаться от нуля).
3. Факторы не должны сильно коррелировать друг с другом, тем более находиться в строгой функциональной связи (т. е. они не должны быть интеркоррелированны).
2.1.2. Традиционный метод наименьших квадратов
для многомерной регрессии (OLS)
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии
модели или вектора
.
Оценка параметров многомерной модели, как и в случае парной регрессии, осуществляется обычно традиционным методом наименьших квадратов (МНК). Согласно данному методу, в качестве оценки вектора
принимают вектор
, который минимизирует сумму квадратов отклонений наблюдаемых значений yi от рассчитанных по модели
.
В матричной форме функционал S будет записан так:

МНК-оценки в матричной форме находят по формулам:
, где
.
Оценим с помощью МНК параметры линейной двухфакторной модели:
, i=1; n. Для этого минимизируем функционал:

Функционал S является функцией трех переменных
. Чтобы найти экстремум функции нескольких переменных, нужно взять ее частные производные по этим переменным и приравнять их нулю:
,
,
.
Получим следующую систему нормальных линейных уравнений:

Параметры этой системы могут быть найдены, например, методом К. Гаусса, либо методом итераций.
Рассмотрим пример. Для данных табл. 2.1 найдем МНК-оценки параметров линейного двухфакторного уравнения регрессии:
.
Расчет необходимых сумм для системы нормальных линейных уравнений сведем в табл. 2.1.
Таблица 2.1
| i | у – заработная плата, $ | х1 –возраст, лёт | х2 – выработка, шт./смену | yx1 | yx2 | x12 | x22 | x1x2 |
|
Тогда система нормальных линейных уравнений будет иметь вид:

Решив систему, найдем значения
:
;
;
.
Найдем МНК-оценки для нашего примера матричным способом.
Воспользовавшись правилами умножения матриц будем иметь:
ХТХ=

.
ХТХ=

Найдем обратную матрицу.
Матрицей, обратной к матрице А, называется матрица А-1 такая, что АА-1 =I (I – единичная матрица).
Обозначим aij элементы матрицы А-1. Тогда
, где Mij – матрица, получающаяся из А вычеркиванием i -й строки и j -го столбца. Для нашего примера:
;
;
и т.д.
В результате получим:


Тогда вектор оценок коэффициентов регрессии равен:

То есть
;
;
(оценки такие же, что и найденные 1-м способом).
Кроме того, для линейной множественной регрессии существует другой способ оценки параметров – через
-коэффициенты (параметры уравнения регрессии в стандартных масштабах).
При построении уравнения регрессии в стандартном масштабе все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:
, j=1;m,
где xji – значение переменной хj в i -м наблюдении.
.
Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение (
). Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:
.
-коэффициенты могут быть оценены с помощью обычного МНК.
При этом система нормальных уравнений будет иметь вид:

(так как
).
Найденные из данной системы
-коэффициенты позволяют определить значения коэффициентов регрессии в естественном масштабе по формулам:
, j=1;m;
.
Найдем
-коэффициенты для нашего примера. Система нормальных линейных уравнений будет иметь вид (воспользуемся данными корреляционной матрицы, рассчитанной в предыдущем вопросе):

Тогда
1 = 0,60166,
2 = 0,408476.
Отсюда
.
;
;

Оцененное уравнение регрессии для нашего примера будет иметь вид:
.
Дадим интерпретацию параметров данного уравнения.
Параметр
=–5,099019 показывает, что заработная плата рабочего в среднем увеличивается на 5$ при увеличении возраста рабочего на 1 год при условии, что выработка рабочего не меняется и фиксирована на среднем уровне; параметр
=8,076387 показывает, что заработная плата рабочего в среднем увеличивается на 8$ при увеличении выработки рабочего за смену на 1 штуку при условии, что возраст рабочего не изменился и фиксирован на среднем уровне.
Параметр
мы не интерпретируем, т. к. в выборке отсутствуют значения признаков x1 и x2, близкие к нулю.
2.1.3. Показатели тесноты связи фактора с результатом. Коэффициенты частной эластичности и стандартизированные коэффициенты регрессии (
– коэффициенты)
Если факторные признаки различны по своей сущности и/или имеют различные единицы измерения, то коэффициенты регрессии
уравнения:
являются несопоставимыми. Поэтому уравнение регрессии дополняют соизмеримыми показателями тесноты связи фактора с результатом, позволяющими ранжировать факторы по силе влияния на результат. К таким показателям тесноты связи относят: частные коэффициенты эластичности,
-коэффициенты и другие.
Частные коэффициенты эластичности
рассчитываются по формуле:
,
где
– среднее значение фактора xj;
– среднее значение результата у.
Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1 % от своего среднего уровня при фиксированном положении других факторов модели. В случае линейной зависимости
рассчитываются по формуле:
,
где
– коэффициент регрессии при j -м факторе.
Стандартизированные частные коэффициенты регрессии
-коэффициенты (
) показывают, на какую часть своего среднего квадратического отклонения
изменится признак-результат у с увеличением соответствующего фактора хj на величину своего среднего квадратического отклонения (
) при неизменном влиянии прочих факторов модели.
Частные коэффициенты эластичности и стандартизованные частные коэффициенты регрессии можно использовать для ранжирования факторов по силе влияния на результат. Чем больше величина
или
, тем сильнее влияет фактор хj на результат у.
Пример. Рассмотрим ранжирование факторов на примере. Исходные данные были приведены в табл. 2.1. Воспользуемся результатами оценивания регрессии заработной платы рабочих у по возрасту x1 и выработке х2:
(2.1)
(см. п. 2.1.2).
Частный коэффициент эластичности для фактора «возраст» будет равен:
.
Частный коэффициент эластичности для фактора «выработка» равен:
. Так как Э1 > Э2, то фактор «возраст» сильнее влияет на заработную плату рабочего (т. е. вызывает более существенное изменение заработной платы), чем фактор «выработка».
-коэффициенты для данного примера были рассчитаны в п. 2.1.2 и составили, соответственно, для фактора«возраст», (x1):
1 = 0,60166, для фактора «выработка» (х2):
2 = 0,408476. Так как
1, >
2, то фактор «возраст» сильнее влияет на заработную плату рабочего (т. е. вызывает более существенное изменение заработной платы), чем фактор«выработка».
По коэффициентам эластичности и
-коэффициентам могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разнонаправленное воздействие факторов на результат.
Коэффициент
может также интерпретироваться как показатель прямого (непосредственного) влияния j -го фактора хj на результат у. Во множественной регрессии j -й фактор оказывает не только прямое, но и косвенное (опосредованное) влияние на результат (т. е. влияет на результат через другие факторы модели). Косвенное влияние измеряется величиной:
, где m – число факторов в модели. Полное влияние j -го фактора на результат, равное сумме прямого и косвенного влияний, измеряет коэффициент линейной парной корреляции данного фактора и результата –
.
Так для нашего примера непосредственное влияние фактора «возраст» на результат «заработную плату» в уравнении регрессии (2.1) измеряется
1 и составляет 0,60166; косвенное (опосредованное) влияние данного фактора на результат определяется как:
.
Непосредственное влияние фактора «выработка» на результат «заработная плата» в уравнении регрессии (3) измеряется
2 и составляет 0,408476. Косвенное влияние данного фактора на результат определяется как:
.