Пошаговые процедуры отбора факторов в модель регрессии

При построении модели регрессии к факторам, включаемым в модель, предъявляется ряд требований:

1) каждый фактор должен быть обоснован теоретически;

2) в модель включаются только те факторы, которые могут быть количественно измерены или отождествлены с цифровыми метками (представлены в виде фиктивных переменных);

3) в модель нельзя включать совокупный фактор и факторы, его образующие;

4) факторы должны быть тесно связаны с исследуемой переменной;

5) факторы должны быть линейно независимы друг от друга.

Способ 1. Выбор факторных признаков для построения регрессионной модели на основе анализа матрицы коэффициентов парной корреляции.

Отбор факторов обычно производится следующим образом:

1.отбираются факторы, исходя из сущности проблемы

2. Формируется матрица коэффициентов парной корреляции

3. Анализ матрицы коэффициентов парной корреляции на определение тесноты связи между зависимой переменной с включенными в анализ факторами.

4. Оценивается значимость коэффициентов корреляции. На основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

5. Сравниваются числовые значения критериев с табличным значением критерия Стьюдента. Далее делается вывод, если tрасч > tтабл, то полученные значения коэффициентов корреляции значимы.

6. Затем перейдем к анализу остальных столбцов матрицы с целью выявления коллинеарности. Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т. е., решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономических показателей это условие выполняется не всегда. Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений.

Один из подходов определения наличия или отсутствия мультиколлинеарности заключается в анализе матрицы коэффициентов парной корреляции. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,8.

7. Из факторов, между которыми обнаружена коллинеарность, оставляет тот, у которого больше коэффициент корреляции с зависимой переменной.

 

Коэффициенты интеркорреляции позволяют исключать дублирующие факторы (переменные коллинеарны, если коэффициент больше 0,7). Предпочтение в данном случае отдается тому фактору, который имеет наименьшую тесноту связи с другими факторами. Матрица парных коэффициент корреляции играет большую роль в отборе, но парные коэффициенты не могут полностью решить задачу. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора и результата.

Способ 2. Выбор факторных признаков для построения регрессионной модели методом исключения.

Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффици-ентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t -крите-рия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

 

Применение нескольких фиктивных переменных сдвига для описания более двух качественных признаков объекта: спецификация модели; проблема мультиколлинеарности; особенности введения фиктивных переменных, определение базового состояния (пример)

Для учета влияния качественных факторов на зависимую переменную привлекают переменные, которые получили название фиктивных.

Если качественный признак может принимать более двух значений, то вводится несколько фиктивных переменных. Спецификация модели регрессии с несколькими фиктивными переменными сдвига имеет вид:

где α, b, δ – параметры модели; 𝑿𝒕– значение регрессора в наблюдении t;

𝑑𝑡 =

В модель вводится k-1 фиктивных переменных, где k-1 количество возможных значений признака. Иначе при оценке параметров в модели будет наблюдаться совершенная мультиколлинеарность (линейная зависимость) фиктивных переменных. Значение фиктивной переменной 𝑑𝑡 = 0 называют базовым (сравнительным).

𝑀 (𝑌𝑡|𝑑𝑡 = 0) = 𝑎 + 𝑏𝑋t и 𝑀(𝑌𝑡 |𝑑𝑡 = 1) = 𝑎 + 𝑏𝑋𝑡 + t

В уравнении 𝑀 (𝑌𝑡 |𝑑𝑡 = 1)= 𝑎 + 𝑏𝑋𝑡 + 𝜹 величина 𝜹 представляет собой среднее изменение значения объясняемой переменной при переходе от одного качественного признака к другому.

Пример: Объяснить величину спроса Y уровнем цен р, уровнем душевого дохода Х и фактором сезонности (по кварталам).

Спецификация модели имеет вид: Y=a0+a1*p1+a2X+b1d1+b2d2+b3d3+u

Введем три фиктивные переменные: d1,d2,d3.

𝑑1𝑡 = 𝑑2𝑡 =

𝑑3𝑡 =

Тогда для 1 квартала: d1=1,d2=0,d3=0;Y=a0+a1*p1+a2X+b1d1 +u

Тогда для 2 квартала: d1=0,d2=1,d3=0; Y=a0+a1*p1+a2X+b2d2+u

Тогда для 3 квартала: d1=0,d2=0,d3=1; Y=a0+a1*p1+a2X+ b3d3+u

Тогда для 4 квартала: d1=0,d2=0,d3=0; Y=a0+a1*p1+a2X +u

Уравнение, в котором все фиктивные переменные равны нулю, называется базовым.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: