Корреляционный метод имеет две основные задачи:
1) обнаружить зависимость между факторным и результативным признаками и описать её форму с помощью уравнения регрессии;
2) установить меру тесноты связи между признаками (в какой мере вариация х обуславливает вариацию у).
Приступая к изучению корреляционной зависимостиследует помнить о том, что, прежде всего, необходимо провести предварительный теоретический анализ. Он должен ответить на вопрос о том, существует ли такая связь вообще. Из истории статистики известно, что несоблюдение этого правила не раз приводило исследователей к курьезным результатам.
Предварительный теоретический анализ позволяет во многих случаях подсказать и форму связи (прямолинейная или более сложная), установить, является ли связь прямой пли обратной.
Сказанное выше означает, что каждый, кто прибегает к использованию метода корреляции, должен хорошо владеть не только данным методом, но и знанием предмета своего исследования.
Корреляционную связь, в которой есть только один признак-фактор и один признак-результат, именуют парной. Уравнение, выражающее такую связь, представляют какой-либо математической формулой прямой или кривых линий (гипербола, парабола и др.).
|
|
Для нахождения формы связи и описания ее в виде уравнения линии используют:
— группировку статистических данных;
— построение графика эмпирической линии.
Если точек очень много, то рассматривают не линию, а облако точек на графике корреляционного поля. В реальной практике не всегда удается достаточно уверенно по эмпирической линии установить форму линии связи. В этих случаях принимают несколько вариантов формы связи, по каждому из них делают расчеты и в конце дают оценку вариантов с помощью показателя тесноты связи. Вариант, в котором теснота связи оказалась наиболее высокой, принимается за наиболее верный.
Если форма связи выражается прямой линией, то уравнение регрессии имеет вид:
,
где - теоретическое значение,
и - параметры уравнения.
Параметр экономической интерпретации не имеет. Параметр называется коэффициентом регрессии, который показывает насколько изменится результативный признак () при изменении признака-фактора (x) на одну единицу.
Параметры уравнения и найдем из решения системы двух нормальных уравнений:
Уравнение регрессии можно использовать для прогнозирования, если связь между факторным и результативным признаками достаточно тесная.
В случае прямолинейной формы связи теснота может быть измерена линейным коэффициентом корреляции по формуле:
.
Коэффициент корреляции может находится в пределах от 0 (связь отсутствует) до (связь полная). Знак «+» указывает на прямую, а знак «-» на обратную связь.
|
|
Существуют способы оценки тесноты связи. В частности, по таблице Чэддока тесноту связи определяют:
Значение коэффициента (по модулю) | Теснота связи |
0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 | слабая умеренная заметная высокая весьма высокая |
В упрощенном виде считают, что если коэффициент (по модулю) составляет от 0,1 до 0,3 – связь слабая, от 0,3 до 0,7 – средняя, от 0,7 и выше – тесная.
Уравнение линейной регрессии также можно найти по формуле (II способ):
,
где – линейный коэффициент корреляции;
, , , , ,
, .
Оценить тесноту связи можно также с помощью корреляционного отношения, которое вычисляется по формуле:
,
где - индивидуальные значения результативного признака,
- теоретические значения результативного признака, которые находятся по уравнению регрессии,
- среднее значение результативного признака.
При этом абсолютная величина коэффициента корреляции равна корреляционному отношению.
Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации
.
Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.
К простейшим показателям степени тесноты связи относят
а) коэффициент корреляции знаков Фехнера:
,
где - число совпадений знаков отклонений индивидуальных величин от средней величины;
- число несовпадений знаков отклонений индивидуальных величин от средней величины.
б) коэффициент корреляции рангов Кендалла:
.
Для расчета все единицы ранжируются по признаку x, по ряду другого признака y подсчитывается для каждого ранга число последующих рангов, превышающих данный (их сумму обозначим P) и число последующих рангов, ниже данного (их сумму обозначим Q).
в) коэффициент корреляции рангов Спирмена:
,
где - разность между рангами переменной x и y.
Коэффициенты корреляции знаков Фехнера,рангов Кендалла, рангов Спирмена могут принимать значения от -1 до +1. Если эти коэффициенты больше нуля, то существует прямая корреляционная связь между исследуемыми признаками, а если меньше нуля, то обратная корреляционная связь. Чем ближе значения этих коэффициентов по модулю к единице, тем теснее связь между изучаемыми признаками. Причем значения, равные также свидетельствуют о корреляционной связи (в отличие от линейного коэффициента корреляции).
Преимущество коэффициентов корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом и т.п.
Недостатком коэффициентов корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для количественных признаков следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближёнными мерами тесноты связи.
Значимость (надежность) вычисленного значения линейного коэффициента корреляции r определяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости линейного коэффициента корреляции) при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычно или (, где - доверительная вероятность);
n- 2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу об отсутствии связи между показателями x и y.
|
|
Если , то отклоняем нулевую гипотезу об отсутствии связи между показателями x и y. Т.е. полученное значение r считается значимым и принимаем гипотезу о наличии статистической связи между показателями.
Значимость простой линейной регрессии проверяется с помощью F-критерия Фишера. Проверяется нулевая гипотеза при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку F-критерия Фишера определяем по соответствующей таблице
,
где - уровень значимости, обычно или (, где - доверительная вероятность), m – количество объясняющих переменных модели (для модели простой парной корреляции m =1);
m и n-m- 1= n- 2 – числа степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу об отсутствии линейной регрессии между показателями x и y (необходимо строить нелинейную регрессию).
Если , то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями x и y.
Значимость коэффициента регрессии b проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости коэффициента регрессии) при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
,
где - среднеквадратическая (стандартная) ошибка параметра регрессии b, находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычно или (, где - доверительная вероятность);
n- 2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.
Значимость параметра a проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза при конкурирующей гипотезе .
|
|
1. Наблюдаемое значение критерия находится по формуле:
,
где - среднеквадратическая (стандартная) ошибка параметра регрессии a, находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычно или (, где - доверительная вероятность);
n- 2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости параметра a, т.е. параметра a не равен нулю.
Доверительные интервалы параметров регрессии при уровне значимости определяются по формулам:
где
- среднеквадратическая ошибка параметра регрессии a,
- среднеквадратическая ошибка параметра регрессии b,
- табличное значение критерия Стьюдента при заданном уровне значимости и числе степеней свободы .
Доверительный интервал для прогнозного значения при уровне значимости определяется по формуле:
где
- точечный прогноз, находится по построенной модели линейной регрессии;
- средняя ошибка прогноза в точке , рассчитывается по формуле:
где - среднеквадратическая (стандартная) ошибка регрессии, рассчитывается по формуле:
Пример. Имеются данные об объемах реализованной продукции и балансовой прибылью предприятия по месяцам отчетного года (см. табл. 8.1).
Таблица 8.1
Месяц | Объем реализованной продукции, млн. руб. | Балансовая прибыль, млн. руб. |
Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь | 1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
Необходимо:
1) построить модель линейной регрессии зависимости балансовой прибыли предприятия от объема реализованной продукции;
2) оценить тесноту связи между указанными признаками с помощью
а) линейного коэффициента корреляции,
б) коэффициента корреляции знаков Фехнера,
в) коэффициента корреляции рангов Кендалла,
г) коэффициента корреляции рангов Спирмена
и сделать соответствующие выводы;
3) определить значимость построенной модели с помощью коэффициента детерминации;
4) при уровне значимости проверить значимость
а) линейного коэффициента корреляции,
б) простой линейной регрессии,
в) параметров регрессии
и сделать соответствующие выводы;
5) дать точечный и интервальный (при уровне значимости ) прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб.