Отбор факторов при построении множественной регрессии

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1) быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то нужно придать ему количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированы);

2) не должны быть коррелированны между собой и тем более находиться в точной функциональной связи.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми. Так, в уравнении y = a + b ₁ × x ₁ + b ₂ × x ₂ + e, предполагается, что факторы x ₁ и x ₂ независимы друг от друга, т.е. r_x ₁ _x ₂ = 0. Тогда можно говорить, что параметр b ₁ измеряет силу влияния фактора x ₁ на результат y при неизменном значении фактора x ₂. Если же r_x ₁ _x ₂ = 1, то с изменением фактора x ₁ фактор x ₂ не может оставаться неизменным. Отсюда b ₁ и b ₂ нельзя интерпретировать как показатели раздельного влияния x ₁ и x ₂ на y.

Пример 3.1. Рассмотрим регрессию себестоимости единицы продукции, руб., (y) от заработной платы работника, руб., (x) и производительности труда, единиц в час, (z).

y = 22600 – 5 × x – 10 × z + e.

Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед. себестоимость продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда. Вместе с тем параметр при x нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной x в данном случае обусловлено высокой корреляцией между x и z (r_xz = 0,95). Поэтому роста заработной платы не может быть при постоянной производительности труда, если не принимать во внимание инфляцию.

Включаемые во множественную регрессию факторы должны объяснить вариацию зависимой переменной. Если строится модель с набором m факторов, то для неё рассчитывается показатель детерминации R ², который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии m факторов. Влияние других, не учтенных в модели факторов, оценивается как (1 – R ²) с соответствующей остаточной дисперсией S ².

При дополнительном включении в регрессию (p + 1) фактор коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

R ² _p _{+ 1} ³ R ² _p и S ² _p _{+ 1} £ S ² _p.

Если этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор x_p _{+ 1} не улучшает модель и является лишним. Так, если для регрессии, включающей пять факторов, коэффициент детерминации составил 0,857 и включение шестого фактора дало коэффициент детерминации 0,858, то вряд ли целесообразно дополнительно включать в модель этот фактор.

Насыщение модели лишними факторами не только снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t -критерию Стьюдента.

Несмотря на то, что теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно проводится в две стадии: на первой отбираются факторы исходя из сути проблемы; на второй – на основе матрицы показателей корреляции и определения t -статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно коллинеарны, т.е. находятся между собой в линейной зависимости, если r_xixj ³ 0,7.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2 3 4

Соотношение системы права и системы законодательства

Правосознание: понятие, структура, виды

Суд и судебный процесс в Законах Хаммурапи

Охрана редких и вымирающих видов

Ремонт посудомоечных машин своими руками

Показатели тесноты корреляционной связи для многофакторной корреляционно-регрессионной модели

Самый сильный аргумент, почему эволюция человека не могла быть