Регрессионный анализ заключается в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения. До регрессионного анализа следует проводить корреляционный анализ, в процессе которого оценивается степень тесноты статистической связи между исследуемыми переменными. От степени тесноты связи зависит прогностическая сила регрессионной модели.
Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака от факторных признаков.
Уравнение регрессии или модель связи социально-экономических явлений выражается функцией. Различают парную () и множественную () регрессии.
Парная регрессий описывает связь между двумя признаками (результативным и факторным). Множественная регрессия описывает связь между результативным признаком и двумя и более факторными признаками.
|
|
Изучение модели парной регрессии является базовым во всем курсе эконометрики. Обычно она применяется в том случае, когда из всего круга факторов, влияющих на результат, можно выделить один, оказывающий наиболее сильное воздействие. Он и берется в качестве объясняющей переменной х.
Представим, что есть два ряда данных:
x1 | x2 | x3 | … | хn |
y1 | y2 | y3 | … | yn |
где n – число наблюдений.
Каждое из наблюдений характеризуется двумя переменными xi, yi. Число наблюдений n должно в шесть-семь раз превышать число параметров при переменной х в уравнении регрессии. Таким образом, для изучения линейной регрессии число наблюдений должно быть не менее семи.
В парной линейной регрессии связь между переменными определяется следующим образом:
,
где у – зависимая (объясняемая) переменная, реальная, фактическая, эмпирическая;
х – независимая (объясняющая) переменная;
– зависимая переменная, рассчитанная по уравнению регрессии, теоретическая;
а, b – константы, параметры уравнения линейной регрессии;
– случайная компонента, возмущение.
Каждую пару наблюдений (хi;yi) можно представить в виде точки на плоскости. Такое графическое изображение наблюдений называется полем корреляции или диаграммой рассеяния. Выбранный тип функции (прямая, парабола, гипербола и т.д.) должен проходить через большее количество точек или как можно ближе к ним.
В каждом из наблюдений величину случайной компоненты можно определить как разность между фактическим значением результата и рассчитанным по уравнению регрессии:
|
|
.
Если на графике все точки совпадут с линией регрессии, то между результативным признаком у и фактором х существует функциональная зависимость, и выполняется равенство для каждого наблюдения i =1,2,…, n.
Данные, которые описывают экономические процессы, не могут иметь строгую функциональную зависимость, поскольку на результативный признак в экономике влияет большое количество факторов и случайных процессов, и все они не могут быть учтены в модели.
В парной регрессии выбор вида математической функции может быть осуществлен с помощью следующих методов:
- графического (с помощью построения поля корреляции и подбора функции, график которой проходит через большее количество точек или как можно ближе к ним);
- аналитического (исходя из экономической теории изучаемой взаимосвязи и опыта подобных предыдущих исследований);
- экспериментального (посредством перебора нескольких функций, построения нескольких уравнений регрессии и выбора того уравнения, при котором остаточная дисперсия минимальна).
После того как выбран вид уравнения регрессии (прямая линия, парабола, гипербола и т.д.) находят значения параметров модели, для линейной регрессии – это а0 и а1. Для этого используют метод наименьших квадратов. В основу этого метода положена идея минимизации суммы квадратов отклонений фактических значений у от их выравненных (теоретических) значений , т.е.
,
где уi – фактические значения результативного признака;
– теоретические значения результативного признака, найденные по уравнению регрессии.
Если регрессия линейная , то
.
Рассматривая сумму S в качестве функции параметров а0 и а1 (значения хi и уi в функции S являются постоянными величинами), определяют частные производные по а0 и а1 и приравнивают их к нулю, поскольку в точке экстремума производная функции равна нулю:
Так, если связь между признаками линейная, то система уравнений для нахождения параметров уравнения регрессии примет вид:
После решения системы относительно а0 и а1 находят уравнение регрессии .
Если связь между признаками у и х описывается уравнением параболы , то система нормальных уравнений примет вид:
Если связь описывается уравнением гиперболы , система нормальных уравнений следующая:
Вернемся к парной линейной регрессии. Решая систему уравнений относительно а и b, находят значения указанных параметров. Можно также воспользоваться следующими формулами для определения параметров а и b:
и .
В Excel параметры а и b можно вычислить с помощью функции = ЛИНЕЙН, задав известные значения у и значения х.
Правильность расчетов параметров уравнения регрессии может быть проверена с помощью сравнения сумм:
.
После определения параметров уравнения регрессии а и b записывают уравнение в окончательном виде, например .
В уравнении линейной регрессии параметр а (свободный член) с математической точки зрения определяет среднее значение у, которое складывается под влиянием всех факторов, кроме х. С экономической точки зрения параметр а чаще всего не интерпретируется, поскольку чаще всего значение признака х не может быть равно нулю.
Параметр b (коэффициент при х) определяет, на сколько в среднем изменится у при изменении факторного признака на единицу.
Чем больше величина коэффициента регрессии b, тем значительнее влияние данного факторного признака на моделируемый результативный.
Знак коэффициента регрессии говорит о характере влияния фактора на результативный признак.
Экономическая интерпретация параметров линейного уравнения регрессии дополняется расчетом коэффициента эластичности:
.
Этот коэффициент показывает, на сколько процентов в среднем изменится у при изменении фактора х на 1%.