Корреляционное отношение и индекс корреляции

Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости.

Для получения такого показателя вспомним правило сложения дисперсий (8.12):

, (3.37)

где общая дисперсия переменной

, (3.38)

средняя групповых дисперсий , или остаточная дисперсия

, (3.39)

, (3.40)

межгрупповая дисперсия

. (3.41)

Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Величина

(3.42)

получила название эмпирического корреляционного отношения Y поX. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше . Величина , называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X. Аналогично вводится эмпирическое корреляционное отношение X по Y.

. (3.43)

Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n):

1. Корреляционное отношение есть неотрицательная величина,
не превосходящая .

2. Если ,то корреляционная связь отсутствует.

3. Если , то между переменными существует функциональная зависимость.

4. , т.е. в отличие от коэффициента корреляции r (для которого ) при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую — зависимой.

Эмпирическое корреляционное отношение является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения Однако в связи с тем, что закономерное изменение нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, преувеличивает тесноту связи. Поэтому наряду с рассматривается показатель тесноты связи характеризующий рассеяние точек корреляционного поля относительно линии регрессии (3.3). Показатель получил название теоретического корреляционного отношения или индекса корреляции Y по X:

. (3.44)

где дисперсии и определяются по формулам (12.54)— (12.56), в которых групповые средние заменены условными средними , вычисленными по уравнению регрессии (12.16).

Подобно вводится и индекс корреляции X по Y:

. (3.45)

Достоинством рассмотренных показателей и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя и завышает тесноту связи по сравнению с R, но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения и R связаны с коэффициентом корреляции r следующим образом:

. (3.46)

Коэффициент детерминации R², равный квадрату индекса корреляции (для парной линейной модели ), показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной.

Чем ближе R² к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R² = 1, то эмпирические точки (x, y) лежат на линии регрессии и между переменными YиX существует линейная функциональная зависимость. Если R² = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс.

Расхождение между и (или ) может быть использовано для проверки линейности корреляционной зависимости.

Проверка значимости корреляционного отношения основана на том, что статистика

(3.47)

имеет распределение Фишера—Снедекора и степенями свободы. Поэтому значимо отличается от нуля, если , где табличное значение критерия на уровне значимости при числе степеней свободы и .

Индекс корреляции R двух переменных значим, если значение статистики

(3.48)

больше табличного , где и .

Пример 12.8. Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов (ОПФ) X (млн руб.) для совокупности 50 однотипных предприятий (12.1). По данным таблицы вычислить корреляционное отношение и индекс корреляции и проверить их значимость на уровне .

Таблица 12.1

Величина ОПФ, млн руб. (X)	Середины интервалов		Всего	Групповая средняя, т
7-11	11-15	15-19	19-23	23-27

20-25 25-30 30-35 35-40 40-45	22,5 27,5 32,5 37,5 42,5	- - -	-	-	- -	- - -		10,3 13,3 17,8 20,3 23,0
Всего	-
Групповая средняя , млн руб.	-	22,5	29,3	31,9	35,4	39,2	-	-

В таблице через и обозначены середины соответствующих интервалов, а и соответственно их частоты.

В таблице групповые средние получены по формулам:

; .

Решение. По данным табл. 12.1 на первом этапе вычислим общую среднюю признака y, для этого воспользуемся формулой:

Для вычисления общей дисперсии воспользуемся известной формулой:

Межгрупповую дисперсию получим по формуле (12.57):

Эмпирическое корреляционное отношение получим по формуле (1.58):

Теперь по (12.57) =517,8/50 = 10,36 и по (12.58)

. Значение близко к величине 0,740 (полученной ранее в примере 12.3). Поэтому оправдано сделанное выше на основании графического изображения эмпирической линии (ломаной) регрессии предположение о линейной корреляционной зависимости между переменными.

Для расчета по уравнению регрессии (см. пример 12.1) находим значения , представленные в предпоследней графе табл. 12.4. Затем аналогично и . Как и следовало ожидать, оказался равным (небольшое расхождение объясняется округлением промежуточных результатов при вычислении . Поэтому в случае линейной связи нет смысла вычислять , а достаточно ограничиться вычислением . Величина коэффициента детерминации показывает, что вариация зависимой переменной Y (суточной выработки продукции) на 55,1% объясняется вариацией независимой переменной Х (величиной основных производственных фондов).

Для проверки значимости , учитывая, что количество интервалов по группировочному признаку , по (12.63)

Табличное значение . Так как , то значимо отличается от нуля. Аналогично проверяется значимость найдем . По (12.64) . Так как , то индекс корреляции значим.

3 .8. Множественный регрессионный анализ

Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной зависимой переменной Y от нескольких объясняющих переменных . Эта задача решается с помощью множественного регрессионного анализа.

Множественное линейное уравнение регрессии имеет вид:

(3.49)

где неизвестные параметры модели; случайная ошибка модели, обусловленная влиянием неучтенных факторов в модель, а также случайными ошибками наблюдении.

Для определения неизвестных параметров модели множественной регрессии из генеральных совокупностей сформированы две выборки объемами n:

Подставляя эти выборки в модель регрессии (3.49) получим систему уравнении множественной линейной регрессии:

(3.50)

Включение в регрессионную модель новых объясняющих переменных (факторов) усложняет получаемые формулы и вычисления. Это приводит к целесообразности использования матричных обозначений. Матричное описание регрессии облегчает как теоретические концепции анализа, так и необходимые расчетные процедуры.

Введем обозначения: вектор столбец, значений зависимой переменной размера n;

— матрица значений объясняющих переменных, или матрица плана размера ;

вектор столбец, параметров размера (k+1);

вектор столбец, возмущений (случайных ошибок, остатков) размера п.

Тогда в матричной форме модель (3.50) примет вид:

. (3.51)

Оценкой этой модели по выборке является уравнение

, (3.52)

где , .

Для оценки вектора неизвестных параметров применим метод наименьших квадратов. Так как произведение транспонированной матрицы на саму матрицу

то условие минимизации остаточной суммы квадратов запишется в виде:

. (3.53)

Учитывая, что при транспонировании произведения матриц получается произведение транспонированных матриц, взятых в обратном порядке, т.е. , получим после раскрытия скобок:

. (3.54)

Произведение есть матрица размера , т.е. величина скалярная, следовательно, оно не меняется при транспонировании: . Поэтому условие минимизации (3.54) примет вид:

На основании необходимого условия экстремума функции нескольких переменных , представляющей (3.55), необходимо приравнять к нулю частные производные по этим переменным или в матричной форме — вектор частных производных

. (3.55)

Таким образом, встает задача найти минимум этой функций. Для этого выражение (3.55) следует продифференцировать по векторному аргументу и полученное выражение приравнять к нулю, то есть:

Отсюда получается следующее выражение:

Данная система уравнений называется нормальной системой уравнений регрессии. Требуется ввести обозначения: матрица коэффициентов нормальных уравнений, вектор-столбец свободных членов нормальных уравнений регрессии.

С учетом введенных обозначений нормальная система уравнений регрессии перепишется в окончательном виде:

(3.56)

Для решения матричного уравнения (3.56) относительно вектора оценок параметров необходимо ввести предпосылку для множественного регрессионного анализа: матрица является неособенной, т.е. ее определитель не равен нулю. Следовательно, ранг матрицы равен ее порядку, т.е. . Из матричной алгебры известно, что , значит, , т.е. ранг матрицы плана равен числу ее столбцов.

Кроме того, полагают, что число имеющихся наблюдений (значений) каждой из объясняющих переменных превосходит ранг матрицы , т.е. или , ибо в противном случае в принципе невозможно получение сколько-нибудь надежных статистических выводов.

Если матрица коэффициентов нормальных уравнений хорошо обусловлена и обратима, то можно получить решение системы (3.56), например, в виде:

(3.57)

где - обратная матрица, соответствующая условиям:

где - единичная матрица соответствующих размеров.

Зная вектор , модель уравнения множественной регрессии можно представить в виде:

(3.58)

Преобразуем вектор оценок (13.26) с учетом (13.23) получим:

Откуда

, (3.59)

т. е. оценки параметров (3.59), найденные по выборке, будут содержать случайные ошибки.

Пример 13.4. Имеются следующие данные (условные) о сменной добыче угля на одного рабочего Y(t), мощности пласта Х\ (м) и уровне механизации работ Х₂ (%), характеризующие процесс добычи угля в 10 шахтах.

Таблица 13.6

Предполагая, что между переменными , и существует линейная корреляционная зависимость, найти ее аналитическое выражение (уравнение регрессии , по и .

Решение. Обозначим

, ,

(напоминаем, что в матрицу плана X вводится дополнительный столбец чисел, состоящий из единиц).

Решение системы уравнении найдем методом псевдонормального решения:

, (3.60)

где псевдообратная матрица к исходной матрице .

Псевдообратную матрицу найдем по рекурсивному алгоритму (№№№) и она равна:

Тогда по формуле (13.29) найдем вектор столбец параметров регрессии:

С учетом (13.27) уравнение множественной регрессии имеет вид:

. (13.30)

Уравнение множественной регрессии (13.30) показывает, что при увеличении только мощности пласта (при неизменном ) на 1 м, добыча угля на одного рабочего Y увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ на 1% (при неизменной ) в среднем на 0,367 т.

Добавление в регрессионную модель новой объясняющей переменной изменило коэффициент регрессии (Y по ) с 1,016 для парной регрессии (см. пример 13.1) до 0,854 — для множественной регрессии. В этом никакого противоречия нет, так как во втором случае коэффициент регрессии позволяет оценить прирост зависимой переменной Y при изменении на единицу объясняющей переменной в чистом виде, независимо от . В случае парной регрессии учитывает воздействие на Y не только переменной , но и косвенно корреляционно связанной с ней переменной . ►

На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии и коэффициенты эластичности :

. (13.31)

. (13.32)

Стандартизованный коэффициент регрессии показывает, на сколько величин изменится в среднем зависимая переменная Y при увеличении только j-й объясняющей переменной на , а коэффициент эластичности на сколько процентов (от средней) изменится в среднем Y при увеличении только на 1%.

4.9. Ковариационная матрица и ее выборочная оценка

Вариации оценок параметров будут, в конечном счете, определять точность уравнения множественной регрессии. Для их измерения в многомерном регрессионном анализе рассматривают так называемую ковариационную матрицу К, являющуюся матричным аналогом дисперсии одной переменной:

где элементы ковариации (или корреляционные моменты) оценок параметров и . Ковариация двух переменных определяется как математическое ожидание произведения отклонений этих переменных от их математических ожиданий [Ссылка]. Поэтому

, (13.28)

где и математические ожидания соответственно для параметров и .

Ковариация характеризует как степень рассеяния значений двух переменных относительно их математических ожиданий, так и взаимосвязь этих переменных.

В силу того, что оценки , полученные методом наименьших квадратов, являются несмещенными оценками параметров , т.е. , выражение (13.28) примет вид:

Рассматривая ковариационную матрицу К, легко заметить, что на ее главной диагонали находятся дисперсии опенок параметров регрессии, ибо

. (13.29)

В сокращенном виде ковариационная матрица К имеет вид:

. (13.30)

Учитывая (13.28) мы можем записать

Тогда выражение (12.30) примет вид:

, (13.31)

ибо элементы матрицы X —неслучайные величины.

Матрица представляет собой ковариационную матрицу вектора возмущений :

в которой все элементы, не лежащие на главной диагонали, равны нулю в силу предпосылки 4 о некоррелированности возмущений , и между собой, а все элементы, лежащие на главной диагонали, в силу предпосылок 2 и 3 регрессионного анализа равны одной и той же дисперсии :

Поэтому матрица , где единичная матрица го

порядка. Следовательно, в силу (13.31) ковариационная матрица вектора оценок параметров:

Так как и , то окончательно получим:

(13.32)

Таким образом, с помощью обратной матрицы нормальных уравнении регрессииопределяется не только сам вектор оценок параметров (13.28), но и дисперсии и ковариации его компонент.

Входящая в (13.32) дисперсия возмущений неизвестна. Заменив ее выборочной остаточной дисперсией

(13.33)

по (13.32) получаем выборочную оценку ковариационной матрицы К. (В знаменателе выражения (13.33) стоит , а не , как это было выше в (13.6). Это связано с тем, что теперь степеней свободы (а не две) теряются при определении неизвестных параметров, число которых вместе со свободным членом равно .

4.10. Определение доверительных интервалов

для коэффициентов и функции множественной регрессии

Перейдем теперь к оценке значимости коэффициентов регрессии и построению доверительного интервала для параметров регрессионной модели .

В силу (13.29), (13.32) и изложенного выше оценка дисперсии коэффициента регрессии определится по формуле:

где несмещенная оценка параметра ;

диагональный элемент матрицы .

Среднее квадратическое отклонение (стандартная ошибка) коэффициента регрессии примет вид:

. (13.34)

Значимость коэффициента регрессии можно проверить, если учесть, что статистика имеет распределение Стьюдента с

степенями свободы. Поэтому значимо отличается от нуля на уровне значимости , если соответствующий ный доверительный интервал для параметра есть

. (13.35)

Наряду с интервальным оцениванием коэффициентов регрессии по (13.35) весьма важным для оценки точности определения зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии или для условного математического ожидания зависимой переменной , найденного в предположении, что объясняющие переменные приняли значения, задаваемые вектором

.Выше такой интервал получен для уравнения парной регрессии (см. (13.13) и (13.12)). Обобщая соответствующие выражения на случай множественной регрессии, можно получить доверительный интервал для :

где групповая средняя, определяемая по уравнению регрессии,

(13.36)

— ее стандартная ошибка.

При обобщении формул (13.15) и (13.14) аналогичный доверительный интервал для индивидуальных значений зависимой переменной примет вид:

(13.37)

где

. (13.38)

Доверительный интервал для дисперсии возмущений в множественной регрессии с надежностью строится аналогично парной модели по формуле (13.20) с соответствующим изменением числа степеней свободы критерия :

(13.39)

Пример 13.6. По данным примера 13.4 оценить сменную добычу угля на одного рабочего для шахт с мощностью пласта 8 м и уровнем механизации работ 6%; найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт. Проверить значимость коэффициентов регрессии и построить для них 95%-ные доверительные интервалы. Найти с надежностью 0,95 интервальную оценку для дисперсии возмущений .

Решение. В примере 13.4 уравнение регрессии получено в виде:

. По условию надо оценить , где . Выборочной оценкой , является групповая средняя, которую найдем по уравнению регрессии: . Для построения доверительного интервала для М (у) необходимо знать дисперсию его оценки . Для ее вычисления обратимся к табл. 13.7 (точнее к ее двум последним столбцам, при составлении которых учтено, что групповые средние определяются по полученному уравнению регрессии).

Теперь по (13.37): и (т).

Определяем стандартную ошибку групповой средней г> по формуле (13.41). Вначале найдем

Теперь (т).

По табл. IV приложений при числе степеней свободы находим . По (13.40) доверительный интервал для , равен или (т).

Итак, с надежностью 0,95 средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м и уровнем механизации работ 6% находится в пределах от 4,52 до 6,46 т.

Сравнивая новый доверительный интервал для функции регрессии , полученный с учетом двух объясняющих переменных, с аналогичным интервалом с учетом одной объясняющей переменной (см. пример 13.1), можно заметить уменьшение его величины. Это связано с тем, что включение в модель новой объясняющей переменной позволяет несколько повысить точность модели за счет увеличения взаимосвязи зависимой и объясняющей переменных (см. ниже).

Найдем доверительный интервал для индивидуального значения при

по (13.43): (т) и по (13.42): , т. е. (т).

Итак, с надежностью 0,95 индивидуальное значение сменной добычи угля в шахтах с мощностью пласта 8 м и уровнем механизации работ 6% находится в пределах от 3,05 до 7,93 (т).

Проверим значимость коэффициентов регрессии и . В примере 13.4 получены и . Стандартная ошибка в соответствии с (13.38) равна: . Так как , то коэффициент значим. Аналогично вычисляем и т.е. коэффициент незначим на 5%-ном уровне.

Доверительный интервал имеет смысл построить только для значимого коэффициента регрессии : по (13.39) или .

Итак, с надежностью 0,95 за счет изменения на 1 м мощности пласта (при неизменном ) сменная добыча угля на одного рабочего У будет изменяться в пределах от 0,332 до 1,376 т.

Найдем 95%-ный доверительный интервал для параметра ст². Учитывая, что , , найдем по табл. V приложений при степенях свободы ; и по формуле (13.43')

Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,565 до 5,35, а их стандартное отклонение — от 0,751 до 2,31 (т).

Формально переменные, имеющие незначимые коэффициенты регрессии, могут быть исключены из рассмотрения. В экономических исследованиях исключению переменных из регрессии должен предшествовать тщательный качественный анализ. Поэтому может оказаться целесообразным все же оставить в регрессионной модели одну или несколько объясняющих переменных, не оказывающих существенного (значимого) влияния на зависимую переменную.

4.11. Мультиколлинеарность

Под мульттоллинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.

При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица особенная, так как содержит линейно зависимые векторы-столбцы и ее определитель равен нулю, т.е. нарушается предпосылка 6 регрессионного анализа. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.

Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица в этом случае является неособенной, но ее определитель очень мал. В то же время вектор оценок и его ковариационная матрица К в соответствии с формулами (13.28) и (13.36) пропорциональны обратной матрице а значит, их элементы обратно пропорциональны величине определителя В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии и оценка их значимости по критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по критерию.

Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объема выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения.

Один из методов выявления мультиколлинеарности заключается в анализе корреляционной матрицы между объясняющими переменными и выявлении пар переменных, имеющих высокие коэффициенты корреляции (обычно больше 0,8). Если такие переменные существуют, то говорят о мультиколлинеарности между ними.

Полезно также находить множественные коэффициенты корреляции между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента корреляции (обычно принимают больше 0,8) свидетельствует о мультиколлинеарности.

Другой подход состоит в исследовании матрицы . Если определитель матрицы близок к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности.

Для устранения или уменьшения мультиколлинеарности используется ряд методов. Один из них заключается в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Другим из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, вначале рассматривается линейная регрессия зависимой переменной Кот объясняющей переменной, имеющей с ней наиболее высокий коэффициент корреляции (или индекс корреляции при нелинейной форме связи). На втором шаге включается в рассмотрение та объясняющая переменная, которая имеет наиболее высокий частный коэффициент корреляции с Y и вычисляется множественный коэффициент (индекс) корреляции. На третьем шаге вводится новая объясняющая переменная, которая имеет наибольший частный коэффициент корреляции с Y, и вновь вычисляется множественный коэффициент корреляции и т.д.

Процедура введения новых переменных продолжается до тех пор, пока добавление следующей объясняющей переменной существенно не увеличивает множественный коэффициент корреляции.

12 13 14 15 16 17 18

Подборка статей по вашей теме: