Множественная линейная регрессия: отбор факторов

Наиболее важная задача при построении множественной линейной регрессии – правильный отбор факторов, входящих в данное уравнение. При решении этой задачи наиболее широкое применение получили следующие схемы: метод включения факторов и метод исключения – отсев факторов из полного его набора.

В соответствии с первой схемой (метод включения факторов) признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y.

Вторая схема пошаговой регрессии (метод исключения) основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее значение t - статистики. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.

В соответствии с первой схемой (метод включения факторов) воспользуйтесь инструментом анализа данных MS Excel «РЕГРЕССИЯ» следующим образом. Сначала выберите фактор, имеющий наиболее тесную связь с результатом (rухi = мах). Обозначим его х1. Затем примените только к этому фактору (х1) и результату (У), т.е. только к двум столбикам данных, инструмент анализа данных MS Excel «РЕГРЕССИЯ». Оцените R2х1 - он покажет, сколько процентов дисперсии удалось объяснить с помощью переменной х1.

Применение инструмента Регрессия (Анализ данных в EXCEL).

Для проведения регрессионного анализа выполните следующие действия:

1. Выберите команду Сервис Þ Анализ данных.

2. В диалоговом окне Анализ данных выберите инструмент Регрессия, а затем щелкните на кнопке ОК

3. В диалоговом окне Регрессия в поле Входной интервал Y введите адрес одного диапазона ячеек, который представляет зависимую переменную. В поле Входной интервал Х введите адреса одного или нескольких диапазонов, которые содержат значения независимых переменных

4. Если выделены и заголовки столбцов, то установить флажок Метки в первой строке.

5. Выберите параметры вывода. В данном примере Новая рабочая книга

6. В поле Остатки поставьте необходимые флажки.

Далее добавьте еще одну объясняющую переменную (х2), и снова примените инструмент анализа данных MS Excel «РЕГРЕССИЯ», теперь уже к трем столбикам даных – У, х1, х2.

Обратите внимание! Столбики х1 и х2 должны стоять рядом!

Оцените R2х1х2 - он покажет, сколько процентов дисперсии удалось объяснить с помощью двух переменных - х1 и х2. Затем найдите разность между R2х1 и R2х1х2, оцените ее существенность/несущественность и сделайте вывод – стоит ли включать в модель переменную х2. Несущественной считается величина меньше 0,01 – т.е. дополнительная переменная добавляет меньше 1 % объясненной регрессии.

Если переменная х2 существенно улучшает модель, добавьте третью объясняющую переменную х3 и проведите процедуру оценки снова, теперь уже для результата «У» и трех факторных переменных х1, х2 и х3.

Снова оцените, насколько улучшилась модель – для этого опять найдите разность между R2х1х2 и R2 х1х2х3. Если разность существенна, переменную х3 следует включить в модель и повторить процедуру оценки уже для четырех объясняющих факторов – У, х1, х2 , х3 и х4. Если разность несущественна – переменную х3 нужно исключить из дальнейшего анализа, и провести процедуру оценки для переменных у, х1, х2 и х4.

Продолжайте процедуру отбора до тех пор, пока не включите в модель все переменные, или разница R2 станет несущественной при добавлении очередной переменной.

Таблица 1.4 – Результаты применения инструмента анализа данных MS Excel «РЕГРЕССИЯ» к У и х1; вывод по R2 х1.

Пример:

ВЫВОД ИТОГОВ  
Регрессионная статистика
Множественный R 0,825
R-квадрат 0,785
Нормированный R-квадрат 0,542
Стандартная ошибка 150611,41
Наблюдения  

R2х1 = 0,785, т.е. объем предоставленных субсидий из федерального бюджета объясняет 78,5% вариации показателя «Число малых предприятий».

Таблица 1.5 – Результаты применения инструмента анализа данных MS Excel «РЕГРЕССИЯ» к у, х1, х2, вывод по R2 х1х2.

Пример:

ВЫВОД ИТОГОВ  
Регрессионная статистика
Множественный R 0,891
R-квадрат 0,821
Нормированный R-квадрат 0,744
Стандартная ошибка 50613,41
Наблюдения  

R2х1х2 = 0,821, разница между R2х1 и R2х1х2 составляет 0,036 = 0,0821-0,785. Таким образом, фактор х2 «Густота ж/д путей общего пользования (на конец года; км путей на 10000 кв. км территории)» существенно улучшает качество модели, процент объясненной дисперсии возрастает до 82,1%, и данный фактор нужно включить в модель.

Таблица 1.6 – Результаты применения инструмента анализа данных MS Excel «РЕГРЕССИЯ» к У, х1, х2, х3, вывод по R2 х1х2х3.

Пример:

ВЫВОД ИТОГОВ  
Регрессионная статистика
Множественный R 0,898
R-квадрат 0,822
Нормированный R-квадрат 0,765
Стандартная ошибка 25987,41
Наблюдения  

R2х1х2х3 = 0,822, разница между R2х1х2 и R2х1х2х3 составляет 0,001 = 0,0821-0,0822. Таким образом, фактор х3 «Число абонентских терминалов сотовой связи (на конец года; на 1000 чел. населения)» несущественно улучшает качество модели, процент объясненной дисперсии возрастает до 82,2%, данный фактор включать в модель не нужно.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: