Парная линейная регрессия. Линейная зависимость – наиболее часто используемая форма связи между двумя коррелируемыми признаками, выражаемая при парной корреляции уравнением прямой

Линейная зависимость – наиболее часто используемая форма связи между двумя коррелируемыми признаками, выражаемая при парной корреляции уравнением прямой:

,

где – выровненное среднее значение результативного признака;

х – значение факторного признака;

а0 и а1 – параметры уравнения;

а0 – значение у при х = 0;

а1 – коэффициент регрессии.

Коэффициент регрессии а1 показывает, на сколько (в абсолютном выражении) изменится результативный признак у при изменении факторного признака х на единицу.

Если а1 имеет положительный знак, то связь прямая, если отрицательный – связь обратная.

Параметры уравнения связи определяются способом наименьших квадратов (МНК) с помощью составленной и решенной системы двух уравнений с двумя неизвестными:

где n – число членов в каждом из двух сравниваемых рядов (число единиц совокупности);

x – сумма значений факторного признака;

x2 – сумма квадратов значений факторного признака;

y – сумма значений результативного признака;

yx – сумма произведений значений факторного признака на значения результативного признака.

(Суть метода наименьших квадратов заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е. ).

Решив систему уравнений, получаем следующие значения параметров:

; .

Рассчитав по фактическим данным все записанные выше суммы и подставив их в приведенные формулы, найдем параметры прямой. Если параметры уравнения определены правильно, то ∑ у =∑.

Для экономической интерпретации линейных и нелинейных связей между двумя исследуемыми явлениями часто используют рассчитанные на основе уравнений регрессии коэффициенты эластичности.

Коэффициент эластичности показывает, на сколько процентов изменится в среднем результативный признак у при изменении факторного признака х на 1 %.

Для линейной зависимости коэффициент эластичности (ε) определяется по формуле:

(для отдельной единицы совокупоности), или (в целом для совокупности).

Определение тесноты связи в корреляционно-регрессионном анализе основывается на правиле сложения дисперсий как и в методе аналитической группировки. Но в отличие от него, где для оценки линии регрессии используют групповые средние результативного признака, в корреляционно-регрессионном анализе для этой цели используют теоретические значения результативного признака.

Наглядно представить и обосновать корреляционно-регрессионный анализ позволяет график на рис. 9.4.

У

у

Х

Рис. 9.4. Эмпирические и выровненные уровни ряда распределения

На графике на рис. 9.4 проведены три линии: у – ломанная линия фактических данных; – прямая наклонная линия теоретических значений у при абстрагировании от влияния всех факторов, кроме фактора х (переменная средняя); – прямая горизонтальная линия, из среднего значения которой исключено влияние на у всех без исключения факторов (постоянная средняя).

Несовпадение линии переменной средней с линией постоянной средней поясняется влиянием факторного признака х, что, в свою очередь, свидетельствует о наличие между признаками у и х неполной, нефункциональной связи. Для определения тесноты этой связи необходимо рассчитать дисперсию отклонений у и , то есть остаточную дисперсию, которая обусловлена влиянием всех факторов, кроме фактора х. Разница между общей и остаточной дисперсиями дает нам теоретическую (факторную) дисперсию, которая измеряет вариацию, обусловленную фактором х. На сопоставлении этой разницы с общей дисперсией построен индекс корреляции или теоретическое корреляционное отношение ( R ), которое определяется по формулам:

, или ,

где - общая дисперсия;

- остаточная дисперсия;

– факторная (теоретическая) дисперсия.

Факторную дисперсию по теоретическим значениям исчисляют по формуле:

, или по формуле без теоретических значений .

Остаточную дисперсию определяют по формулам: или = - .

Коэффициент детерминации (R2) характеризует ту часть вариации результативного признака у, которая соответствует линейному уравнению регрессии (т.е. обусловлена вариацией факторного признака) и исчисляется по формуле:

.

Индекс корреляции принимает значения от 0 до 1. Когда R = 0, то связи между вариацией признаков х и у нет. Остаточная дисперсия равняется общей, а теоретическая дисперсия равняется нулю. Все теоретические значения совпадают со средними значениями , линия на графике совпадает с линией , то есть принимает горизонтальное положение. При R = 1 теоретическая дисперсия равна общей, а остаточная равна нулю. Фактические значения у совпадают с теоретическими , связь между исследуемыми признаками линейно-функциональная.

Индекс корреляции пригоден для измерения тесноты связи при любой ее форме. Он, как и эмпирическое корреляционное отношение, измеряет только тесноту связи и не показывает ее направление.

Для измерения тесноты связи и определения его направления при линейной зависимости используется линейный коэффициент корреляции (r), определяемый по формуле:

.

Значение r колеблется в пределах от –1 до +1. Положительное значение r означает прямую связь между признаками, а отрицательное – обратную. Оценка тесноты связи между признаками проводится по данным табл. 9.3.

Таблица 9.3

Качественная оценка связи между признаками

Сила связи Значение r при наличии
прямой связи обратной связи
Слабая Средняя Тесная 0,1 – 0,3 0,3 – 0,7 0,7 – 0,99 (-0,1) – (-0,3) (-0,3) – (-0,7) (-0,7) – (-0,99)

Проверка надежности (существенности) связи в корреляционно-регрессионном анализе осуществляют при помощи тех же самых критериев и процедур, что и в аналитической группировке (см. п. 9.3).

Фактическое значение F -критерия определяют по формуле: .

Степени свободы зависят от числа параметров уравнения регрессии (m) и количества единиц исследуемой совокупности (n): k1 = m –1, k2 = n – m.

Надежность связи коэффициента детерминации R2 проверяют при помощи таблицы по F -критерию для 5 %-ного уровня значимости.

Для установления достоверности рассчитанного линейного коэффициента корреляции используют критерий Стьюдента: ,

где - средняя ошибка коэффициента корреляции.

При достаточно большом числе наблюдений (n > 50) коэффициент корреляции можно считать достоверным, если он превышает свою ошибку в 3 и больше раз, а если он меньше 3, то связь между исследуемыми признаками у и х не доказана.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: