Отбор факторов при построении множественной регрессии

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлениями исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.

К факторам, включаемым в модель, предъявляются следующие требования:

1. Факторы должны быть количественно измеримы. Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной. Поскольку данная величина характеризуется коэффициентом детерминации, включение нового фактора в модель должно приводить к заметному изменению коэффициента. Если этого не происходит, то включаемый в анализ фактор не улучшает модель и является лишним.

Например, если для регрессии, включающей 5 факторов, коэффициент детерминации составил 0,85, и включение шестого фактора дало коэффициент детерминации 0,86, то вряд ли целесообразно дополнять модель этим фактором.

Если необходимо включить в модель качественный фактор, не имеющий количественной оценки, то нужно придать ему количественную определенность. В этом случае в модель включается соответствующая ему «фиктивная» переменная, имеющая конечное количество формально численных значений, соответствующих градациям качественного фактора (балл, ранг).

Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную, принимающую значения: 0 – при начальном образовании, 1 – при среднем, 2 – при высшем.

Несмотря на то, что теоретически регрессионная модель позволяет учесть любое количество факторов, на практике в этом нет необходимости, т.к. неоправданное их увеличение приводит к затруднениям в интерпретации модели и снижению достоверности результатов.

2. Факторы не должны быть взаимно коррелированы и, тем более, находиться в точной функциональной связи. Наличие высокой степени коррелированности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изолированное влияние факторов на результативный показатель. В результате параметры регрессии оказываются неинтерпретируемыми.

Пример. Рассмотрим регрессию себестоимости единицы продукции (у) от заработной платы работника (х) и производительности труда в час (z).

   

    Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед-цу в час себестоимость единицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда.

    А параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии в данном случае обусловлено высокой корреляцией между х и z (0,95).

(слайд 4) Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если коэффициент интеркорреляции (корреляции между двумя объясняющими переменными) ≥ 0,7. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из уравнения. Предпочтение при этом отдается не тому фактору, который более тесно связан с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Наряду с парной коллинеарностью может иметь место линейная зависимость между более чем двумя переменными – мультиколлинеарность, т.е. совокупное воздействие факторов друг на друга.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В результате вариация в исходных данных перестанет быть полностью независимой, что не позволит оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

(слайд 5) Включение в модель мультиколлинеарных факторов нежелательно по следующим причинам:

ü затрудняется интерпретация параметров множественной регрессии; параметры линейной регрессии теряют экономический смысл;

ü оценки параметров не надежны, имеют большие стандартные ошибки и меняются с изменением количества наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

(слайд 6) Для оценки мультиколлинеарности используется определитель матрицы парных коэффициентов интеркорреляции:

(!) Если факторы не коррелируют между собой, то матрица коэффициентов интеркорреляции является единичной, поскольку в этом случае все недиагональные элементы равны 0. Например, для уравнения с тремя переменными  матрица коэффициентов интеркорреляции имела бы определитель, равный 1, поскольку  и .

(слайд 7)

(!) Если между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0 (Если две строки матрицы совпадают, то её определитель равен нулю).

Чем ближе к 0 определитель матрицы коэффициентов интеркорреляции, тем сильнее мультиколлинеарность и ненадежнее результаты множественной регрессии.

Чем ближе к 1 определитель матрицы коэффициентов интеркорреляции, тем меньше мультиколлинеарность факторов.

(слайд 8) Способы преодоления мультиколлинеарности факторов:

1) исключение из модели одного или нескольких факторов;

2) переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Например, если , то можно построить следующее совмещенное уравнение: ;

3) переход к уравнениям приведенной формы (в уравнение регрессии подставляется рассматриваемый фактор, выраженный из другого уравнения).

 

(слайд 9) 2.2. Выбор формы уравнения регрессии

Различают следующие виды уравнений множественной регрессии:

ü линейные,

ü нелинейные, сводящиеся к линейным,

ü нелинейные, не сводящиеся к линейным (внутренне нелинейные).

В первых двух случаях для оценки параметров модели применяются методы классического линейного регрессионного анализа. В случае внутренне нелинейных уравнений для оценки параметров применяются методы нелинейной оптимизации.

Основное требование, предъявляемое к уравнениям регрессии, заключается в наличии наглядной экономической интерпретации модели и ее параметров. Исходя из этих соображений, наиболее часто используются линейная и степенная зависимости.

Линейная множественная регрессия имеет вид:

    Параметры bi при факторах хi называются коэффициентами «чистой» регрессии. Они показывают, на сколько единиц в среднем изменится результативный признак за счет изменения соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.

(слайд 10) Например, зависимость спроса на товар (Qd) от цены (P) и дохода (I) характеризуется следующим уравнением:

Qd = 2,5 - 0,12P + 0,23 I.

Коэффициенты данного уравнения говорят о том, что при увеличении цены на единицу, спрос уменьшится в среднем на 0,12 единиц, а при увеличении дохода на единицу, спрос возрастет в среднем 0,23 единицы.

Параметр а не всегда может быть содержательно проинтерпретирован.

Степенная множественная регрессия имеет вид:

Параметры bj (степени факторов хi) являются коэффициентами эластичности. Они показывают, на сколько % в среднем изменится результативный признак за счет изменения соответствующего фактора на 1% при неизмененном значении остальных факторов.

Наиболее широкое применение этот вид уравнения регрессии получил в производственных функциях, а также при исследовании спроса и потребления.

Например, зависимость выпуска продукции Y от затрат капитала K и труда L: говорит о том, что увеличение затрат капитала K на 1% при неизменных затратах труда вызывает увеличение выпуска продукции Y на 0,23%. Увеличение затрат труда L на 1% при неизменных затратах капитала K вызывает увеличение выпуска продукции Y на 0,81 %.

Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии:

· экспонента ;

· гипербола .

Чем сложнее функция, тем менее интерпретируемы ее параметры. Кроме того, необходимо помнить о соотношении между количеством наблюдений и количеством факторов в модели. Так, для анализа трехфакторной модели должно быть проведено не менее 21 наблюдения.

(слайд 11) 3. Оценка параметров модели

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов, согласно которому следует выбирать такие значения параметров а и bi, при которых сумма квадратов отклонений фактических значений результативного признака yi от теоретических значений ŷ минимальна, т. е.:

Если , тогда S является функцией неизвестных параметров a, bi:

Чтобы найти минимум функции, нужно найти частные производные по каждому из параметров и приравнять их к 0:

Отсюда получаем систему уравнений:

(слайд 12) Ее решение может быть осуществлено методом определителей:

,

    где – определитель системы;

           ∆a, ∆b1, ∆bp – частные определители (∆j).

 – определитель системы,

∆j – частные определители, которые получаются из основного определителя путем замены j-го столбца на столбец свободных членов .

При использовании данного метода возможно возникновение следующих ситуаций:

1) если основной определитель системы Δ равен нулю и все определители Δj также равны нулю, то данная система имеет бесконечное множество решений;

2) если основной определитель системы Δ равен нулю и хотя бы один из определителей Δj также равен нулю, то система решений не имеет.

(слайд 13) Помимо классического МНК для определения неизвестных параметров линейной модели множественной регрессии используется метод оценки параметров через β-коэффициенты – стандартизованные коэффициенты регрессии.

Построение модели множественной регрессии в стандартизированном, или нормированном, масштабе означает, что все переменные, включенные в модель регрессии, стандартизируются с помощью специальных формул.

Уравнение регрессии в стандартизованном масштабе:

,

где ,  - стандартизованные переменные;

 - стандартизованные коэффициенты регрессии.

Т.е. посредством процесса стандартизации точкой отсчета для каждой нормированной переменной устанавливается ее среднее значение по выборочной совокупности. При этом в качестве единицы измерения стандартизированной переменной принимается ее среднеквадратическое отклонение σ.

β-коэффициенты показывают, на сколько сигм (средних квадратических отклонений) изменится в среднем результат за счет изменения соответствующего фактора xi на одну сигму при неизменном среднем уровне других факторов.

Стандартизованные коэффициенты регрессии βi сравнимы между собой, что позволяет ранжировать факторы по силе их воздействия на результат. Большее относительное влияние на изменение результативной переменной y оказывает тот фактор, которому соответствует большее по модулю значение коэффициента βi. В этом основное достоинство стандартизованных коэффициентов регрессии, в отличие от коэффициентов «чистой» регрессии, которые не сравнимы между собой.

(слайд 14) Связь коэффициентов «чистой» регрессии bi с коэффициентами βi описывается соотношением:

, или

Параметр a определяется как .

Коэффициенты β определяются при помощи МНК из следующей системы уравнений методом определителей:

Для оценки параметров нелинейных уравнений множественной регрессии предварительно осуществляется преобразование последних в линейную форму (с помощью замены переменных) и МНК применяется для нахождения параметров линейного уравнения множественной регрессии в преобразованных переменных. В случае внутренне нелинейных зависимостей для оценки параметров приходится применять методы нелинейной оптимизации.

(слайд 1) 4. Проверка качества уравнения регрессии

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, т.е. оценивает тесноту совместного влияния факторов на результат.

 Независимо от формы связи показатель множественной корреляции рассчитывается по формуле:

    Коэффициент множественной корреляции принимает значения в диапазоне 0 ≤ R ≤ 1. Чем ближе он к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

При линейной зависимости признаков формулу индекса множественной корреляции можно записать в виде:

,

где - стандартизованные коэффициенты регрессии,

  - парные коэффициенты корреляции результата с каждым фактором.

    Данная формула получила название линейного коэффициента множественной корреляции, или совокупного коэффициента корреляции.

Индекс детерминации для нелинейных по оцениваемым параметрам функций принято называть «квази- ». Для его определения по функциям, использующим логарифмические преобразования (степенная, экспонента), необходимо сначала найти теоретические значения ln y, затем трансформировать их через антилогарифмы (антилогарифм ln y = y) и далее определить индекс детерминации как «квази- » по формуле:

.

Величина «квази- » не будет совпадать с совокупным коэффициентом корреляции, который может быть рассчитан для линейного в логарифмах уравнения множественной регрессии, потому что в последнем раскладывается на факторную и остаточную суммы квадратов не , а .

(слайд 2) Использование коэффициента множественной детерминации  для оценки качества модели обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину . Поэтому при большом количестве факторов предпочтительней использовать так называемый скорректированный (улучшенный) коэффициент множественной детерминации , определяемый соотношением:

,

где n – число наблюдений,

m – число параметров при переменных х (чем больше величина m, тем сильнее различия между к-том множ. детерминации  и скорректированным к-том ).

При заданном объеме наблюдений и при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный к-т множ. детерминации убывает. Его величина может стать и отрицательной при слабых связях результата с факторами. При небольшом числе наблюдений нескорректированная величина к-таимеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Чем больше объем совокупности, по которой исчислена регрессия, тем меньше различаются   и .

Отметим, что низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации может быть обусловлено следующими причинами:

– в регрессионную модель не включены существенные факторы;

– неверно выбрана форма аналитической зависимости, не отражающая реальные соотношения между переменными, включенными в модель.

 

(слайд 3) Значимость уравнения множественной регрессии в целом оценивается с помощью F- критерия Фишера:

Выдвигаемая «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии отвергается при выполнении условия F > F крит, где F крит определяется по таблицам F -критерия Фишера по двум степеням свободы k1 = m, k2= n-m-1 и заданному уровню значимости α.

Значимость одного и того же фактора может быть различной в зависимости от последовательности введения его в модель.

(слайд 4) Мерой для оценки включения фактора в модель служит частный F-критерий (оценивает статистическую значимость присутствия каждого из факторов в уравнении):

,

где - коэффициент множ. детерминации для модели с полным

                    набором факторов;

- тот же показатель, но без включения в модель фактора х1;

  n – число наблюдений;

  m – число параметров при переменных х.

Если фактическое значение F превышает табличное, то дополнительное включение в модель фактора xi статистически оправдано и коэффициент чистой регрессии bi при факторе xi статистически значим.

Если же фактическое значение F меньше табличного, то нецелесообразно включать в модель дополнительный фактор, поскольку он не увеличивает существенно долю объясненной вариации результата, а коэффициент регрессии при данном факторе статистически не значим.

(слайд 5) Частный F-критерий оценивает значимость коэффициентов чистой регрессии. Зная величину , можно определить и t-критерий Стьюдента:

или

где mbi – средняя квадратическая ошибка коэффициента регрессии bi, она может быть определена по формуле:

.

Величина стандартной ошибки совместно с t-распределением Стьюдента при n-m-1 степенях свободы применяется для проверки значимости коэффициента регрессии и для расчета его доверительного интервала.

Частная корреляция

(слайд 6) Частные коэффициенты (или индексы) корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в модель.

Частные показатели корреляции широко используются при отборе факторов, когда необходимо оценить целесообразность включения того или иного фактора в уравнение множественной регрессии. Кроме того, они позволяют ранжировать факторы по тесноте их связи с результатом.

Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

В общем виде частный коэффициент корреляции, измеряющий влияние на у фактора хi при неизменном уровне других факторов, можно определить по формуле:

,

где - коэффициент множественной детерминации для модели с полным набором факторов;

- тот же показатель, но без введения в модель фактора xi.

    При i=1 формула примет вид:

(слайд 7) Коэффициенты частной корреляции могут быть первого, второго, третьего и т.д. порядка. Это зависит от того, влияние скольких факторов элиминируется.

    Частная корреляция первого порядка – когда фиксируется теснота связи двух переменных при устранении влияния одного фактора: (точка отделяет фактор, значение которого элиминируется (закрепляется на неизменном уровне)).

    Частная корреляция второго и т.д. порядка – когда фиксируется теснота связи двух переменных при устранении влияния двух и более факторов, например:

- частная корреляция второго порядка при постоянном действии факторов х2 и х3;

- частная корреляция четвертого порядка при постоянном действии факторов х2, х3, х4, х5.

    Соответственно, коэффициенты парной корреляции называются коэффициентами нулевого порядка.

    Коэффициенты частной корреляции более высоких порядков можно найти через коэффициенты частной корреляции более низких порядков по рекуррентной формуле:

При i=1 и двух факторах формула примет вид:

    При i=2 и двух факторах:

Частные коэффициенты корреляции, рассчитанные по рекуррентной формуле, изменяются в пределах от -1 до +1, а по формуле через множественный коэффициент детерминации – от 0 до 1.

    Сравнение частных коэффициентов друг с другом позволяет ранжировать факторы по тесноте их связи с результатом. Обычно частные коэффициенты корреляции не имеют самостоятельного значения, они используются на стадии формирования модели, в частности в процедуре отсева факторов.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow