Модели множественной регрессии

В предыдущих разделах было упомянуто о том.что вряд ли выбранная незави­симая переменная является единственным фактором, который повлияет на зависи­мую переменную. -В большинстве случаев мы можем идентифицировать более одного фактора, способного влиять каким-то образом на зависимую переменную. Так, например, разумно предположить, что расходы цеха будут определяться количеством отработанных часов, использованного сырья, количеством произве­денной продукции. По видимому, нужно использовать все факторы, которые мы перечислили для того, чтобы предсказать расходы цеха. Мы можем собрать данные об издержках, отработанном времени, использованном сырье и т.д. за неделю или за месяц Но мы не сможем исследовать природу связи между издержками и всеми другими переменными посредством корреляционной диаграммы. Начнем с предположений о линейной связи, и только если это предположение будет неприемлимо, попробуем использовать нелинейную модель. Линейная модель для множественной регрессии:

у = а + Р,х, + р2х2 + Рзх3 +... + Р„хп + е.

Вариация у объясняется вариацией всех независимых переменных, которые в идеале должны быть независимы друг от друга. Например, если мы решим использовать пять независимых переменных, то модель будет следующей:

у = а + Р,х,+ Р2Х2+ Рзхз+ М<+ Ms+ е-

Как и в случае простой линейной регрессии мы получаем по выборке оценки Pi,P2 а, и т.д. Наилучшая линия для выборки:


Гл. 8. Линейная регрессия

у = а + Ь,х,+ Ь2Х2+... + Ьпх„.

Коэффициент а и коэффициенты регрессии b вычисляются с помощью рия минимальности суммы квадратов ошибок £ (у - у)2. Для дальнейшего ai регрессионной модели используют следующие предположения об ошибка любого данного х:

1. Е(е)=0.

2. Дисперсия е равна о~е и одинакова для всех х.

3. Ошибки независимы друг от друга.

Эти предположения те же, что и в случае простой регрессии. Однако в д случае они ведут к очень сложным вычислениям. К счастью, ППП выполня вычисления, позволяя нам сосредоточиться на интерпретации и оценке mhoi торной модели. В следующем разделе мы определим шаги, которые необх предпринять в случае множественной регрессии, но в любом случае мы полагаться на компьютер.

ШАГ 1. ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ

Первый шаг обычно предполагает обдумать, как зависимая переменная быть связана с каждой из независимых переменных. Нет смысла включать } нительные переменные х, если они не дают возможность объяснения вариа Вспомним, что наша задача состоит в том,чтобы объяснить вариацию у ш изменения независимой переменкой х. Нам необходимо рассчитать коэффип корреляции г для всех пар переменных при условии независимости наблгс друг от друга. Это даст нам возможность определить, связаны х с у линей! же нет, независимы лихих, между собой. Это важно в множественной регр Мы можем вычислить каждый из коэффициентов корреляции, как пока: разделе 8.5, чтобы посмотреть, насколько их значения отличны от нуля нужно выяснить, нет ли высокой корреляции между значениями незавю переменных. Если мы обнаружим высокую корреляцию, например, между х то маловероятно, что обе эти переменные должны быть включены в оконч ную модель.

ШАГ 2. ОПРЕДЕНИЕ ВСЕХ СТАТИСТИЧЕСКИ ЗНАЧИМЫХ МОДЕЛ Мы можем исследовать линейную связь между у и любой комбинацией нез! мых переменных. Но модель имеет силу только в том случае, если сущ© значимая линейная связь между у и всеми х и если каждый коэффи регрессии b значимо отличен от нуля.

Мы можем оценить значимость модели в целом, используя F-критерий. I того, мы должны использовать t-критерий для каждого коэффициента pert b, чтобы определить, значимо ли он отличен от нуля. Если коэффициент р сии не значимо отличается от нуля, то соответствующая независимая перем не помогает в прогнозе значения у и модель не имеет силы.

Полная процедура заключается в том, чтобы установить множественну нейную регрессионную модель для всех комбинаций независимых переме Оценим каждую модель, используя F-критерий для модели в целом и t-кри для каждого коэффициента регрессии. Если F-критерий или любой из 1-кр»> незначимы, то эта модель не имеет силы и не может быть использована.


t(&4.2. Анализ данных как составная часть принятия решений

модели исключаются из рассмотрения. Этот процесс занимает очень много време­ни. Например, если у нас имеются пять независимых переменных, то возможно построение 31 модели: одна модель со всеми пятью переменными, пять моделей, включающие четыре из пяти переменных, десять — с тремя переменными, десять — с двумя переменными и пять моделей с одной.

Можно получить множественную регрессию не исключая последовательно независимые переменные, а расширяя их круг. В в этом случае мы начинаем с построения простых регрессий для каждой из независимых переменных поочеред­но. Мы выбираем лучшую из этих регрессий, т.е. с наивысшим коэффициентом корреляции, затем добавляем к этому, наиболее приемлемому значению перемен­ной у вторую переменную. Этот метод построения множественной регрессии называется прямым.

Обратный метод начинается с исследования модели, включающей все незави­симые переменные; в нижеприведенном примере их пять. Переменная, которая дает наименьший вклад в общую модель, исключается из рассмотрения, остается только четыре переменных. Для этих четырех переменных определяется линейная модель. Если же эта модель не верна, исключается еще одна переменная, дающая наименьший вклад, остается три переменных. И этот процесс повторяется со следующими переменными. Каждый раз, когда исключается новая переменная, нужно проверять, чтобы значимая переменная не была удалена. Все эти действия нужно производить с большим вниманием, так как можно неосторожно исключить нужную, значимую модель из рассмотрения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: