Строится простая (парная) регрессия в случае, когда среди факторов, влияющих на результативный показатель, есть явно доминирующий фактор

Тема 2. Корреляционный и регрессионный анализ – математический метод оценки взаимосвязей экономических явлений

Парная регрессия и корреляция в эконометрических исследованиях

Модель парной регрессии. Спецификация модели

Любой экономический показатель практически зависит от бесконечного количества факторов. Однако лишь ограниченное количество факторов действительно существенно воздействуют на исследуемый экономический показатель. Доля влияния остальных факторов столь незначительно, что их игнорирование не может привести к существенным отклонениям в поведении исследуемого объекта. Выделение и учет в модели лишь ограниченного числа реально доминирующих факторов является важной задачей качественного анализа, прогнозирования и управления экономической ситуаций.

Если в естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых каждому значению одной переменной соответствует единственное значение другой, то между экономическими переменными, в большинстве случаев, таких зависимостей нет. Поэтому в экономике имеют дело с корреляционными зависимостями.

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая регрессия представляет собой регрессию между двумя переменными y и x, т.е. модель вида

y = f(x),

где у – зависимая переменная (результативный признак); х – независимая, или объясняющая, переменная, (признак – фактор).

Строится простая (парная) регрессия в случае, когда среди факторов, влияющих на результативный показатель, есть явно доминирующий фактор.

Множественная регрессия соответственно представляет собой модель вида:

y=f(x₁, x₂,…,x_k)

где х_i – признак – факторы.

Рассмотрим простейшую линейную модель парной регрессии:

y = a+bx+ε (2.1)

Величина y, рассматриваемая как зависимая переменная, состоит из двух составляющих: неслучайной составляющей, а+bх и случайного члена ε.

Случайная величина ε называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения.

Причин существования случайной составляющей несколько.

1. Не включение объясняющих переменных. Соотношение между y и x является упрощением. В действительности существуют и другие факторы, влияющие на y, которые не учтены в (2.1). Влияние этих факторов приводит к тому, что наблюдаемые точки лежат вне прямой у = а+bх.

Часто встречаются факторы, которых следовало бы включить в регрессионное уравнение, но невозможно этого сделать в силу их количественной неизмеримости. Возможно, что существуют также и другие факторы, которые оказывают такое слабое влияние, что их в отдельности не целесообразно учитывать, а совокупное их влияние может быть уже существенным. Кроме того, могут быть факторы, которые являются существенными, но которые из-за отсутствия опыта таковыми не считаются. Совокупность всех этих составляющих и обозначено в (2.1) через ε.

2. Агрегирование переменных. Рассматриваемая зависимость (2.1) – это попытка объединить вместе некоторое число микроэкономических соотношений. Так как отдельные соотношения, имеют разные параметры, попытка объединить их является аппроксимацией. Наблюдаемое расхождение приписывается наличию случайного члена ε.

3. Выборочный характер исходных данных. Поскольку исследователи чаще всего имеет дело с выборочными данными при установлении связи между у и х, то возможны ошибки и в силу неоднородности данных в исходной статистической совокупности. Для получения хорошего результата обычно исключают из совокупности наблюдения с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики.

4. Неправильная функциональная спецификация. Функциональное соотношение между у и х математически может быть определено неправильно. Например, истинная зависимость может не являться линейной, а быть более сложной. Следует стремиться избегать возникновения этой проблемы, используя подходящую математическую формулу, но любая формула является лишь приближением истинной связи у и х и существующее расхождение вносит вклад в остаточный член.

5. Возможные ошибки измерения.

В парной регрессии выбор вида математической функции y_х=f(x), может быть осуществлен графическим, аналитическим, экспериментальным методами.

Наиболее наглядным методом является графический. Он основан на поле корреляции.

Основные типы кривых, используемых при количественной оценке связей, представлены на рис. 2.1.

Кроме уже указанных используют также и другие типы кривых, например:

Значительный интерес представляет аналитический метод выбора типа уравнения регрессии, который основан на изучении материальной природы связи исследуемых признаков.

Пусть, например, изучается потребность предприятия в электроэнергии y в зависимости от объема выпускаемой продукции x.

Общее потребление электроэнергии y можно подразделить на две части:

- не связанное с производством продукции а;

- непосредственно связанное с объемом выпускаемой продукции, пропорционально возрастающее с увеличением объема выпуска (b×x).

Рис 2.1. Основные типы кривых, используемые при количественной оценке связей

между двумя переменными

Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида.

y = a+bx

Если разделим обе части уравнения на величину объема выпускаемой продукции (х), то получим выражение зависимости удельного расхода электроэнергии на единицу продукции (z = y/x) от объема выпущенной продукции (х) в виде уравнения гиперболы:

z = b+a/x

При обработке информации на компьютере выбор вида уравнения регрессии осуществляется экспериментальным методом, т.е. путем сравнения величины остаточной дисперсии D_ост, рассчитанный при разных моделях.

В реальных условиях, как правило, всегда имеет место некоторое отклонение точек результативного признака относительно линии регрессии, обусловленное, присутствием случайного члена ε.

Поэтому для уравнения регрессии вычисляется величина суммы отклонений (y-y_x):

где y – фактические значения результативного признака,

y_x – расчетные значения, полученные по уравнению регрессии

Чем меньше величина D_ост, тем лучше уравнение регрессии описывает рассматриваемую корреляционную связь. Из разных математических функций выбирается та, для которой D_ост является min.

В случае, когда D_ост оказывается примерно одинаковой для нескольких функций, то предпочтение отдается более простым видам функций.

Обычно число наблюдений должно в 6-7 и более раз превышать число рассчитываемых параметров при переменной х.