Гл. 8. Линейная регрессия



Г«0


Рнс. 8.8. Случай отсутствия связи между переменными


Рис. 8.9. Сильная нелинейная связь между переменными


Вернемся к примеру 8.1, в котором рассматривается модель прогноза времени поставки в зависимости от расстояния внутри города. Коэффициент корреляции рассчитывается следующим образом:


г =


п£ху-]£х-%у

^(пХхМЕхЛчп^у-^у)2)


По нашим данным коэффициент корреляции равен:


422,6

10 435,2 -28,9 136

(10 ■ 99,41 - 28,9*) (10 • 1972 - 136* V 158,9 • 1224


0,958.


Это значение коэффициента корреляции очень близко к единице, что свиде­тельствует об очень тесной линейной связи между расстоянием и временем постав­ки. Этот вывод подтверждает первоначальное предположение, сделанное исходя из диаграммы.

Коэффициент детерминации (г2 • 100%) показывает процент общей вариации времени поставки, который зависит от расстояния. В нашем случае коэффициент детерминации высох:

г^ОДО2- 100 = 91,8%.

По выборочной модели можно вычислить ожидаемое время при заданном расстоянии поставки:

время (мин.) = 5,91 + 2,66 (расстояние в милях).


252______ 4.2. Анализ данных как составная часть принятия

Выборочная модель объясняет 91,8% вариации времени доставки. Не объясняется 8,2% вариации времени поездки. Эта часть вариации обусловлена всеми остальными факторами, влияющими на время поездки, но не включенными в модель.

ПРЕДСКАЗАНИЯ И ПРОГНОЗЫ НА ОСНОВЕ ЛИНЕЙНОЙ МОДЕЛИ РЕГРЕССИИ

Прогнозы с упорядоченными данными

Мы можем использовать модель для прогноза времени поездки на любые расстояния. Если расстояние равно 4,0 мили, то среднее время поставки:

у = 5,91 + 2,66 ■ 4,0 =» 16,6 мин.

В расчетах такого рода требуется осторожность: не рекомендуется использо­вать модель для прогноза при тех значениях независимой переменной, которые не входят в исходные данные. В нашем случае расстояние изменяется от 1,0 мили до 4,9 мили. Не очевидно, что модель подойдет для данных, не входящих в этот интервал.

Связь между временем н расстоянием может изменяться по мере увеличения расстояния. Например, дальняя поездка может включать использование скорост­ных шоссе, тогда как наша модель описывала связь с учетом медленных городских поездок. Дальние перевозки должны включать остановки на отдых или перекус, которые безусловно изменяют затраченное время.

Если бы нам нужно было экстраполировать расчеты для расстояния, выходя­щего за указанные пределы, мы должны были бы собрать больше данных. Если бы мы решили не делать этого, то должны быть предельно осторожны при использовании прогнозных значений времени поездок. Но эти прогнозы были бы, вероятно, ненадежны.

Оценки, ошибки и остатки

Насколько точными должны быть наши прогнозы? В следующей части мы рассмотрим вопросы, связанные с доверительными интервалами. Однако также полезно оценить надежность, сравнив значения зависимой переменной у и предсказанные значения у для каждого значения независимой переменной х. Эти ошибки, или остатки е — необъясиенная часть каждого наблюдаемого значения у, являются чрезвычайно важными по двум причинам. Во-первых, они позволяют проверить, применима ли данная модель н те предположения, на которых она основана. Во-вторых, мы можем использовать их для того, чтобы дать грубую оценку вероятных ошибок прогнозов, сделанных на основе линейной модели.

Табл. 8.3 содержит значения остатков для примера 8.1.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: