Отбор факторов при построении множественной регрессии. Процедура пошагового отбора переменных

При построении системы факторов необходимо соблюдать следующие условия: 1) должны быть количественно измеримы; 2) теоретически обоснованы; 3) линейно независимы друг от друга; 4) одна модель не должна включать в себя совокупный фактор и факторы его образующие; 5) тесно связаны между собой. Для реализации 5-го требования строят матрицу коэф-в парной корреляции. На основании этой матрицы выбирают те факторы, связь которых с величиной наиболее тесная. Затем проверяют наличие мультиколлинеарности (МК) факторов. Два фактора МК, если . МК факторы нельзя включать в одну модель, нужно выбрать один из них или заменить оба совокупной функцией.

Эта матрица симметрична относительно главной диагонали, т.е. состоит из двух одинаковых треугольников. Она позволяет выбрать факторы наиболее тесно связанные с интересующей нас величиной, а также установить связь между самими факторами. Как правило, в регрессионной модели нельзя включать факторы, тесно связанные между собой.

одним из возможных методов устранения или уменьшения мультиколлинеарности является использование стратегии шагового отбора, реализованную в ряде алгоритмов пошаговой регрессии.

Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии: метод включения факторов и метод исключения – отсев факторов из полного его набора.

В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y.

Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: