Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости.
Для получения такого показателя вспомним правило сложения дисперсий (8.12):
, (3.37)
где
общая дисперсия переменной
, (3.38)
средняя групповых дисперсий
, или остаточная дисперсия
, (3.39)
, (3.40)
. (3.41)
Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Величина
(3.42)
получила название эмпирического корреляционного отношения Y поX. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше
. Величина
, называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X. Аналогично вводится эмпирическое корреляционное отношение X по Y.
. (3.43)
Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n):
1. Корреляционное отношение есть неотрицательная величина,
не превосходящая
.
2. Если
,то корреляционная связь отсутствует.
3. Если
, то между переменными существует функциональная зависимость.
4.
, т.е. в отличие от коэффициента корреляции r (для которого
) при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую — зависимой.
Эмпирическое корреляционное отношение
является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения
Однако в связи с тем, что закономерное изменение
нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов,
преувеличивает тесноту связи. Поэтому наряду с
рассматривается показатель тесноты связи
характеризующий рассеяние точек корреляционного поля относительно линии регрессии
(3.3). Показатель
получил название теоретического корреляционного отношения или индекса корреляции Y по X:
. (3.44)
где дисперсии
и
определяются по формулам (12.54)— (12.56), в которых групповые средние
заменены условными средними
, вычисленными по уравнению регрессии (12.16).
Подобно вводится и индекс корреляции X по Y:
. (3.45)
Достоинством рассмотренных показателей
и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя
и завышает тесноту связи по сравнению с R, но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения
и R связаны с коэффициентом корреляции r следующим образом:
. (3.46)
Коэффициент детерминации R2, равный квадрату индекса корреляции (для парной линейной модели
), показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной.
Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2 = 1, то эмпирические точки (x, y) лежат на линии регрессии и между переменными YиX существует линейная функциональная зависимость. Если R2 = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс.
Расхождение между
и
(или
) может быть использовано для проверки линейности корреляционной зависимости.
Проверка значимости корреляционного отношения
основана на том, что статистика
(3.47)
имеет
распределение Фишера—Снедекора
и
степенями свободы. Поэтому
значимо отличается от нуля, если
, где
табличное значение
критерия на уровне значимости
при числе степеней свободы
и
.
Индекс корреляции R двух переменных значим, если значение статистики
(3.48)
больше табличного
, где
и
.
Пример 12.8. Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов (ОПФ) X (млн руб.) для совокупности 50 однотипных предприятий (12.1). По данным таблицы вычислить корреляционное отношение и индекс корреляции и проверить их значимость на уровне
.
Таблица 12.1
| Величина ОПФ, млн руб. (X) | Середины интервалов | Всего | Групповая средняя, т | |||||
| 7-11 | 11-15 | 15-19 | 19-23 | 23-27 | ||||
| ||||||||
| 20-25 25-30 30-35 35-40 40-45 | 22,5 27,5 32,5 37,5 42,5 | - - - | - | - | - - | - - - | 10,3 13,3 17,8 20,3 23,0 | |
Всего | - | |||||||
Групповая средняя , млн руб. | - | 22,5 | 29,3 | 31,9 | 35,4 | 39,2 | - | - |
В таблице через
и
обозначены середины соответствующих интервалов, а
и
соответственно их частоты.
В таблице групповые средние получены по формулам:
;
.
Решение. По данным табл. 12.1 на первом этапе вычислим общую среднюю признака y, для этого воспользуемся формулой:
.
Для вычисления общей дисперсии воспользуемся известной формулой:

Межгрупповую дисперсию получим по формуле (12.57):

Эмпирическое корреляционное отношение получим по формуле (1.58):

Теперь по (12.57)
=517,8/50 = 10,36 и по (12.58)
. Значение
близко к величине
0,740 (полученной ранее в примере 12.3). Поэтому оправдано сделанное выше на основании графического изображения эмпирической линии (ломаной) регрессии предположение о линейной корреляционной зависимости между переменными.
Для расчета
по уравнению регрессии
(см. пример 12.1) находим значения
, представленные в предпоследней графе табл. 12.4. Затем аналогично
и
. Как и следовало ожидать,
оказался равным
(небольшое расхождение объясняется округлением промежуточных результатов при вычислении
. Поэтому в случае линейной связи нет смысла вычислять
, а достаточно ограничиться вычислением
. Величина коэффициента детерминации
показывает, что вариация зависимой переменной Y (суточной выработки продукции) на 55,1% объясняется вариацией независимой переменной Х (величиной основных производственных фондов).
Для проверки значимости
, учитывая, что количество интервалов по группировочному признаку
, по (12.63)
.
Табличное значение
. Так как
, то
значимо отличается от нуля. Аналогично проверяется значимость найдем
. По (12.64)
. Так как
, то индекс корреляции
значим.
3 .8. Множественный регрессионный анализ
Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной зависимой переменной Y от нескольких объясняющих переменных
. Эта задача решается с помощью множественного регрессионного анализа.
Множественное линейное уравнение регрессии имеет вид:
(3.49)
где
неизвестные параметры модели;
случайная ошибка модели, обусловленная влиянием неучтенных факторов в модель, а также случайными ошибками наблюдении.
Для определения неизвестных параметров модели множественной регрессии из генеральных совокупностей сформированы две выборки объемами n:

Подставляя эти выборки в модель регрессии (3.49) получим систему уравнении множественной линейной регрессии:
(3.50)
Включение в регрессионную модель новых объясняющих переменных (факторов) усложняет получаемые формулы и вычисления. Это приводит к целесообразности использования матричных обозначений. Матричное описание регрессии облегчает как теоретические концепции анализа, так и необходимые расчетные процедуры.
Введем обозначения:
вектор столбец, значений зависимой переменной размера n;
— матрица значений объясняющих переменных, или матрица плана размера
;
вектор столбец, параметров размера (k+1);
вектор столбец, возмущений (случайных ошибок, остатков) размера п.
Тогда в матричной форме модель (3.50) примет вид:
. (3.51)
Оценкой этой модели по выборке является уравнение
, (3.52)
где
,
.
Для оценки вектора неизвестных параметров
применим метод наименьших квадратов. Так как произведение транспонированной матрицы
на саму матрицу 

то условие минимизации остаточной суммы квадратов запишется в виде:
. (3.53)
Учитывая, что при транспонировании произведения матриц получается произведение транспонированных матриц, взятых в обратном порядке, т.е.
, получим после раскрытия скобок:
. (3.54)
Произведение
есть матрица размера
, т.е. величина скалярная, следовательно, оно не меняется при транспонировании:
. Поэтому условие минимизации (3.54) примет вид:
.
На основании необходимого условия экстремума функции нескольких переменных
, представляющей (3.55), необходимо приравнять к нулю частные производные по этим переменным или в матричной форме — вектор частных производных
. (3.55)
Таким образом, встает задача найти минимум этой функций. Для этого выражение (3.55) следует продифференцировать по векторному аргументу
и полученное выражение приравнять к нулю, то есть:

Отсюда получается следующее выражение:

Данная система уравнений называется нормальной системой уравнений регрессии. Требуется ввести обозначения:
матрица коэффициентов нормальных уравнений,
вектор-столбец свободных членов нормальных уравнений регрессии.
С учетом введенных обозначений нормальная система уравнений регрессии перепишется в окончательном виде:
(3.56)
Для решения матричного уравнения (3.56) относительно вектора оценок параметров
необходимо ввести предпосылку для множественного регрессионного анализа: матрица
является неособенной, т.е. ее определитель не равен нулю. Следовательно, ранг матрицы
равен ее порядку, т.е.
. Из матричной алгебры известно, что
, значит,
, т.е. ранг матрицы плана
равен числу ее столбцов.
Кроме того, полагают, что число имеющихся наблюдений (значений) каждой из объясняющих переменных превосходит ранг матрицы
, т.е.
или
, ибо в противном случае в принципе невозможно получение сколько-нибудь надежных статистических выводов.
Если матрица коэффициентов нормальных уравнений
хорошо обусловлена и обратима, то можно получить решение системы (3.56), например, в виде:
(3.57)
где
- обратная матрица, соответствующая условиям:


где
- единичная матрица соответствующих размеров.
Зная вектор
, модель уравнения множественной регрессии можно представить в виде:
(3.58)
Преобразуем вектор оценок (13.26) с учетом (13.23) получим:
,
Откуда
, (3.59)
т. е. оценки параметров (3.59), найденные по выборке, будут содержать случайные ошибки.
Пример 13.4. Имеются следующие данные (условные) о сменной добыче угля на одного рабочего Y(t), мощности пласта Х\ (м) и уровне механизации работ Х2 (%), характеризующие процесс добычи угля в 10 шахтах.
Таблица 13.6
| | | | | | | |
Предполагая, что между переменными
,
и
существует линейная корреляционная зависимость, найти ее аналитическое выражение (уравнение регрессии
, по
и
.
Решение. Обозначим
,
,

(напоминаем, что в матрицу плана X вводится дополнительный столбец чисел, состоящий из единиц).
Решение системы уравнении найдем методом псевдонормального решения:
, (3.60)
где
псевдообратная матрица к исходной матрице
.
Псевдообратную матрицу найдем по рекурсивному алгоритму (№№№) и она равна:

Тогда по формуле (13.29) найдем вектор столбец параметров регрессии:
.
С учетом (13.27) уравнение множественной регрессии имеет вид:
. (13.30)
Уравнение множественной регрессии (13.30) показывает, что при увеличении только мощности пласта
(при неизменном
) на 1 м, добыча угля на одного рабочего Y увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ
на 1% (при неизменной
) в среднем на 0,367 т.
Добавление в регрессионную модель новой объясняющей переменной
изменило коэффициент регрессии
(Y по
) с 1,016 для парной регрессии (см. пример 13.1) до 0,854 — для множественной регрессии. В этом никакого противоречия нет, так как во втором случае коэффициент регрессии позволяет оценить прирост зависимой переменной Y при изменении на единицу объясняющей переменной
в чистом виде, независимо от
. В случае парной регрессии
учитывает воздействие на Y не только переменной
, но и косвенно корреляционно связанной с ней переменной
. ►
На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии
и коэффициенты эластичности
:
. (13.31)
. (13.32)
Стандартизованный коэффициент регрессии
показывает, на сколько величин
изменится в среднем зависимая переменная Y при увеличении только j-й объясняющей переменной на
, а коэффициент эластичности
на сколько процентов (от средней) изменится в среднем Y при увеличении только
на 1%.
4.9. Ковариационная матрица и ее выборочная оценка
Вариации оценок параметров будут, в конечном счете, определять точность уравнения множественной регрессии. Для их измерения в многомерном регрессионном анализе рассматривают так называемую ковариационную матрицу К, являющуюся матричным аналогом дисперсии одной переменной:
.
где элементы
ковариации (или корреляционные моменты) оценок параметров
и
. Ковариация двух переменных определяется как математическое ожидание произведения отклонений этих переменных от их математических ожиданий [Ссылка]. Поэтому
, (13.28)
где
и
математические ожидания соответственно для параметров
и
.
Ковариация характеризует как степень рассеяния значений двух переменных относительно их математических ожиданий, так и взаимосвязь этих переменных.
В силу того, что оценки
, полученные методом наименьших квадратов, являются несмещенными оценками параметров
, т.е.
, выражение (13.28) примет вид:
.
Рассматривая ковариационную матрицу К, легко заметить, что на ее главной диагонали находятся дисперсии опенок параметров регрессии, ибо
. (13.29)
В сокращенном виде ковариационная матрица К имеет вид:
. (13.30)
Учитывая (13.28) мы можем записать
.
Тогда выражение (12.30) примет вид:
, (13.31)
ибо элементы матрицы X —неслучайные величины.
Матрица
представляет собой ковариационную матрицу вектора возмущений
:

в которой все элементы, не лежащие на главной диагонали, равны нулю в силу предпосылки 4 о некоррелированности возмущений
, и
между собой, а все элементы, лежащие на главной диагонали, в силу предпосылок 2 и 3 регрессионного анализа равны одной и той же дисперсии
:
.
Поэтому матрица
, где
единичная матрица
го
порядка. Следовательно, в силу (13.31) ковариационная матрица вектора
оценок параметров:

Так как
и
, то окончательно получим:
(13.32)
Таким образом, с помощью обратной матрицы
нормальных уравнении регрессииопределяется не только сам вектор
оценок параметров (13.28), но и дисперсии и ковариации его компонент.
Входящая в (13.32) дисперсия возмущений неизвестна. Заменив ее выборочной остаточной дисперсией
(13.33)
по (13.32) получаем выборочную оценку ковариационной матрицы К. (В знаменателе выражения (13.33) стоит
, а не
, как это было выше в (13.6). Это связано с тем, что теперь
степеней свободы (а не две) теряются при определении неизвестных параметров, число которых вместе со свободным членом
равно
.
4.10. Определение доверительных интервалов
для коэффициентов и функции множественной регрессии
Перейдем теперь к оценке значимости коэффициентов регрессии
и построению доверительного интервала для параметров регрессионной модели
.
В силу (13.29), (13.32) и изложенного выше оценка дисперсии коэффициента регрессии
определится по формуле:

где
несмещенная оценка параметра
;
диагональный элемент матрицы
.
Среднее квадратическое отклонение (стандартная ошибка) коэффициента регрессии
примет вид:
. (13.34)
Значимость коэффициента регрессии
можно проверить, если учесть, что статистика
имеет
распределение Стьюдента с
степенями свободы. Поэтому
значимо отличается от нуля на уровне значимости
, если
соответствующий
ный доверительный интервал для параметра
есть
. (13.35)
Наряду с интервальным оцениванием коэффициентов регрессии по (13.35) весьма важным для оценки точности определения зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии или для условного математического ожидания зависимой переменной
, найденного в предположении, что объясняющие переменные
приняли значения, задаваемые вектором
.Выше такой интервал получен для уравнения парной регрессии (см. (13.13) и (13.12)). Обобщая соответствующие выражения на случай множественной регрессии, можно получить доверительный интервал для
:

где
групповая средняя, определяемая по уравнению регрессии,
(13.36)
— ее стандартная ошибка.
При обобщении формул (13.15) и (13.14) аналогичный доверительный интервал для индивидуальных значений зависимой переменной
примет вид:
(13.37)
где
. (13.38)
Доверительный интервал для дисперсии возмущений
в множественной регрессии с надежностью
строится аналогично парной модели по формуле (13.20) с соответствующим изменением числа степеней свободы критерия
:
(13.39)
Пример 13.6. По данным примера 13.4 оценить сменную добычу угля на одного рабочего для шахт с мощностью пласта 8 м и уровнем механизации работ 6%; найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт. Проверить значимость коэффициентов регрессии и построить для них 95%-ные доверительные интервалы. Найти с надежностью 0,95 интервальную оценку для дисперсии возмущений
.
Решение. В примере 13.4 уравнение регрессии получено в виде:
. По условию надо оценить
, где
. Выборочной оценкой
, является групповая средняя, которую найдем по уравнению регрессии:
. Для построения доверительного интервала для М (у) необходимо знать дисперсию его оценки
. Для ее вычисления обратимся к табл. 13.7 (точнее к ее двум последним столбцам, при составлении которых учтено, что групповые средние определяются по полученному уравнению регрессии).
Теперь по (13.37):
и
(т).
Определяем стандартную ошибку групповой средней г> по формуле (13.41). Вначале найдем

Теперь
(т).
По табл. IV приложений при числе степеней свободы
находим
. По (13.40) доверительный интервал для
, равен
или
(т).
Итак, с надежностью 0,95 средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м и уровнем механизации работ 6% находится в пределах от 4,52 до 6,46 т.
Сравнивая новый доверительный интервал для функции регрессии
, полученный с учетом двух объясняющих переменных, с аналогичным интервалом с учетом одной объясняющей переменной (см. пример 13.1), можно заметить уменьшение его величины. Это связано с тем, что включение в модель новой объясняющей переменной позволяет несколько повысить точность модели за счет увеличения взаимосвязи зависимой и объясняющей переменных (см. ниже).
Найдем доверительный интервал для индивидуального значения
при
по (13.43):
(т) и по (13.42):
, т. е.
(т).
Итак, с надежностью 0,95 индивидуальное значение сменной добычи угля в шахтах с мощностью пласта 8 м и уровнем механизации работ 6% находится в пределах от 3,05 до 7,93 (т).
Проверим значимость коэффициентов регрессии
и
. В примере 13.4 получены
и
. Стандартная ошибка
в соответствии с (13.38) равна:
. Так как
, то коэффициент
значим. Аналогично вычисляем
и
т.е. коэффициент
незначим на 5%-ном уровне.
Доверительный интервал имеет смысл построить только для значимого коэффициента регрессии
: по (13.39)
или
.
Итак, с надежностью 0,95 за счет изменения на 1 м мощности пласта
(при неизменном
) сменная добыча угля на одного рабочего У будет изменяться в пределах от 0,332 до 1,376 т.
Найдем 95%-ный доверительный интервал для параметра ст2. Учитывая, что
,
,
найдем по табл. V приложений при
степенях свободы
;
и по формуле (13.43')

Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,565 до 5,35, а их стандартное отклонение — от 0,751 до 2,31 (т).
Формально переменные, имеющие незначимые коэффициенты регрессии, могут быть исключены из рассмотрения. В экономических исследованиях исключению переменных из регрессии должен предшествовать тщательный качественный анализ. Поэтому может оказаться целесообразным все же оставить в регрессионной модели одну или несколько объясняющих переменных, не оказывающих существенного (значимого) влияния на зависимую переменную.
4.11. Мультиколлинеарность
Под мульттоллинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.
При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица
особенная, так как содержит линейно зависимые векторы-столбцы и ее определитель равен нулю, т.е. нарушается предпосылка 6 регрессионного анализа. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.
Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица
в этом случае является неособенной, но ее определитель очень мал. В то же время вектор оценок
и его ковариационная матрица К в соответствии с формулами (13.28) и (13.36) пропорциональны обратной матрице
а значит, их элементы обратно пропорциональны величине определителя
В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии
и оценка их значимости по
критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по
критерию.
Оценки
становятся очень чувствительными к незначительному изменению результатов наблюдений и объема выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения.
Один из методов выявления мультиколлинеарности заключается в анализе корреляционной матрицы между объясняющими переменными
и выявлении пар переменных, имеющих высокие коэффициенты корреляции (обычно больше 0,8). Если такие переменные существуют, то говорят о мультиколлинеарности между ними.
Полезно также находить множественные коэффициенты корреляции между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента корреляции (обычно принимают больше 0,8) свидетельствует о мультиколлинеарности.
Другой подход состоит в исследовании матрицы
. Если определитель матрицы
близок к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности.
Для устранения или уменьшения мультиколлинеарности используется ряд методов. Один из них заключается в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.
Другим из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, вначале рассматривается линейная регрессия зависимой переменной Кот объясняющей переменной, имеющей с ней наиболее высокий коэффициент корреляции (или индекс корреляции при нелинейной форме связи). На втором шаге включается в рассмотрение та объясняющая переменная, которая имеет наиболее высокий частный коэффициент корреляции с Y и вычисляется множественный коэффициент (индекс) корреляции. На третьем шаге вводится новая объясняющая переменная, которая имеет наибольший частный коэффициент корреляции с Y, и вновь вычисляется множественный коэффициент корреляции и т.д.
Процедура введения новых переменных продолжается до тех пор, пока добавление следующей объясняющей переменной существенно не увеличивает множественный коэффициент корреляции.
, млн руб.