Тема 8. Корреляционный метод анализа связей. Модели парной регрессии

Корреляционный метод имеет две основные задачи:

1) обнаружить зависимость между факторным и результативным признаками и описать её форму с помощью уравнения регрессии;

2) установить меру тесноты связи между признаками (в какой мере вариация х обуславливает вариацию у).

Приступая к изучению корреляционной зависимостиследует помнить о том, что, прежде всего, необходимо провести предварительный теоретический анализ. Он должен ответить на вопрос о том, существует ли такая связь вообще. Из истории статистики известно, что несоблюдение этого правила не раз приводило исследователей к курьезным результатам.

Предварительный теоретический анализ позволяет во многих случаях подсказать и форму связи (прямолинейная или более сложная), установить, является ли связь прямой пли обратной.

Сказанное выше означает, что каждый, кто прибегает к использованию метода корреляции, должен хорошо владеть не только данным методом, но и знанием предмета своего исследования.

Корреляционную связь, в которой есть только один признак-фактор и один признак-результат, именуют парной. Уравнение, выражающее такую связь, представляют какой-либо математической формулой прямой или кривых линий (гипербола, парабола и др.).

Для нахождения формы связи и описания ее в виде уравнения линии используют:

— группировку статистических данных;

— построение графика эмпирической линии.

Если точек очень много, то рассматривают не линию, а облако точек на графике корреляционного поля. В реальной практике не всегда удается достаточно уверенно по эмпирической линии установить форму линии связи. В этих случаях принимают несколько вариантов формы связи, по каждому из них делают расчеты и в конце дают оценку вариантов с помощью показателя тесноты связи. Вариант, в котором теснота связи оказалась наиболее высокой, принимается за наиболее верный.

Если форма связи выражается прямой линией, то уравнение регрессии имеет вид:

где - теоретическое значение,

и - параметры уравнения.

Параметр экономической интерпретации не имеет. Параметр называется коэффициентом регрессии, который показывает насколько изменится результативный признак () при изменении признака-фактора (x) на одну единицу.

Параметры уравнения и найдем из решения системы двух нормальных уравнений:

Уравнение регрессии можно использовать для прогнозирования, если связь между факторным и результативным признаками достаточно тесная.

В случае прямолинейной формы связи теснота может быть измерена линейным коэффициентом корреляции по формуле:

Коэффициент корреляции может находится в пределах от 0 (связь отсутствует) до (связь полная). Знак «+» указывает на прямую, а знак «-» на обратную связь.

Существуют способы оценки тесноты связи. В частности, по таблице Чэддока тесноту связи определяют:

Значение коэффициента (по модулю)	Теснота связи
0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99	слабая умеренная заметная высокая весьма высокая

В упрощенном виде считают, что если коэффициент (по модулю) составляет от 0,1 до 0,3 – связь слабая, от 0,3 до 0,7 – средняя, от 0,7 и выше – тесная.

Уравнение линейной регрессии также можно найти по формуле (II способ):

где – линейный коэффициент корреляции;

, , , , ,

, .

Оценить тесноту связи можно также с помощью корреляционного отношения, которое вычисляется по формуле:

где - индивидуальные значения результативного признака,

- теоретические значения результативного признака, которые находятся по уравнению регрессии,

- среднее значение результативного признака.

При этом абсолютная величина коэффициента корреляции равна корреляционному отношению.

Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации

Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.

К простейшим показателям степени тесноты связи относят

а) коэффициент корреляции знаков Фехнера:

где - число совпадений знаков отклонений индивидуальных величин от средней величины;

- число несовпадений знаков отклонений индивидуальных величин от средней величины.

б) коэффициент корреляции рангов Кендалла:

Для расчета все единицы ранжируются по признаку x, по ряду другого признака y подсчитывается для каждого ранга число последующих рангов, превышающих данный (их сумму обозначим P) и число последующих рангов, ниже данного (их сумму обозначим Q).

в) коэффициент корреляции рангов Спирмена:

где - разность между рангами переменной x и y.

Коэффициенты корреляции знаков Фехнера,рангов Кендалла, рангов Спирмена могут принимать значения от -1 до +1. Если эти коэффициенты больше нуля, то существует прямая корреляционная связь между исследуемыми признаками, а если меньше нуля, то обратная корреляционная связь. Чем ближе значения этих коэффициентов по модулю к единице, тем теснее связь между изучаемыми признаками. Причем значения, равные также свидетельствуют о корреляционной связи (в отличие от линейного коэффициента корреляции).

Преимущество коэффициентов корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом и т.п.

Недостатком коэффициентов корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для количественных признаков следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближёнными мерами тесноты связи.

Значимость (надежность) вычисленного значения линейного коэффициента корреляции r определяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости линейного коэффициента корреляции) при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

где - уровень значимости, обычно или (, где - доверительная вероятность);

n- 2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу об отсутствии связи между показателями x и y.

Если , то отклоняем нулевую гипотезу об отсутствии связи между показателями x и y. Т.е. полученное значение r считается значимым и принимаем гипотезу о наличии статистической связи между показателями.

Значимость простой линейной регрессии проверяется с помощью F-критерия Фишера. Проверяется нулевая гипотеза при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

;

2. Критическую точку F-критерия Фишера определяем по соответствующей таблице

где - уровень значимости, обычно или (, где - доверительная вероятность), m – количество объясняющих переменных модели (для модели простой парной корреляции m =1);

m и n-m- 1= n- 2 – числа степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу об отсутствии линейной регрессии между показателями x и y (необходимо строить нелинейную регрессию).

Если , то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями x и y.

Значимость коэффициента регрессии b проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости коэффициента регрессии) при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

где - среднеквадратическая (стандартная) ошибка параметра регрессии b, находится по формуле

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

где - уровень значимости, обычно или (, где - доверительная вероятность);

n- 2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии почти не отличается от нуля или равен нулю.

Если , то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.

Значимость параметра a проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

где - среднеквадратическая (стандартная) ошибка параметра регрессии a, находится по формуле

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

где - уровень значимости, обычно или (, где - доверительная вероятность);

n- 2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю.

Если , то отклоняем нулевую гипотезу о незначимости параметра a, т.е. параметра a не равен нулю.

Доверительные интервалы параметров регрессии при уровне значимости определяются по формулам:

где

- среднеквадратическая ошибка параметра регрессии a,

- среднеквадратическая ошибка параметра регрессии b,

- табличное значение критерия Стьюдента при заданном уровне значимости и числе степеней свободы .

Доверительный интервал для прогнозного значения при уровне значимости определяется по формуле:

где

- точечный прогноз, находится по построенной модели линейной регрессии;

- средняя ошибка прогноза в точке , рассчитывается по формуле:

где - среднеквадратическая (стандартная) ошибка регрессии, рассчитывается по формуле:

Пример. Имеются данные об объемах реализованной продукции и балансовой прибылью предприятия по месяцам отчетного года (см. табл. 8.1).

Таблица 8.1

Месяц	Объем реализованной продукции, млн. руб.	Балансовая прибыль, млн. руб.
Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь		1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3

Необходимо:

1) построить модель линейной регрессии зависимости балансовой прибыли предприятия от объема реализованной продукции;

2) оценить тесноту связи между указанными признаками с помощью

а) линейного коэффициента корреляции,

б) коэффициента корреляции знаков Фехнера,

в) коэффициента корреляции рангов Кендалла,

г) коэффициента корреляции рангов Спирмена

и сделать соответствующие выводы;

3) определить значимость построенной модели с помощью коэффициента детерминации;

4) при уровне значимости проверить значимость

а) линейного коэффициента корреляции,

б) простой линейной регрессии,