Основные предпосылки

В этом разделе мы обсудим одно из обязательных предположений, лежащих в основе дальнейшего анализа линейной регрессионной модели. Данные, по которым построена модель линейной регрессии, являются выборкой пар значений х и у. В сущности, мы используем выборку для построения модели, которая в общем виде представит связь. Связь между зависимой переменной у и независимой переменной х описывается как:

у = о + Рх + е,

где е — отклонение ох значения у на линии:

у = о + Рх.

Для данного значения х: у = а + рх — линейная модель, которую можно построить, имея все необходимые данные.

Для любого данного х генеральная совокупность значений у должна быть нормально распределена вдоль линии регрессии, при постоянной вариации для всех х (см. рис. 8.16), у — среднее значение всех значений у для данного х.

I------------- 1----------- 1----------- 1---------------- „

X, X, X, X

Рис. 8.16. Распределение значений у в генеральной совокупности

Как и прежде, греческие буквы обозначают параметры совокупности, такие как ц и а. е — ошибки или остатки, разность между фактическими значениями у и средней величиной у на линии. Если метод наименьших квадратов применен,

Гл. 8. Линейная регрессия 257

чтобы получить линию, которая была наиболее подходящей к данным, то это может быть достигнуто, если мы минимизируем ]£ е². Линейная модель, которую мы вычисляем по выборке, имеет вид:

у = а + Ьх,

где у — оценка генеральной средней у для данного значения х, а и b — выборочные оценки параметров генеральной совокупности а и р.

Как в любом случае, если мы произведем вторую выборку, значения а и b будут другими. Существует аналогия между использованием х для оценки ц и использованием а для оценки а. Делая предположение относительно выборочного распределении х, мы находим доверительный интервал для величины генеральной средней ц.

Точно такая же процедура может быть использована для получения аир путем вывода выборочных величин а и Ь. Нашей основной моделью является:

у = о + |3х + е.

Предположения:

1. Связь является линейной;

2. Независимая переменная х предполагается известной и может быть использована для прогноза у;

3. Ошибки, или остатки б, нормально распределены;

4. Для любых данных х ожидаемое значение е равно 0, т.е. Е (е)=0;

5. Дисперсия постоянна для всех значений х, т.е. дисперсия е=сг;

6. Ошибки независимы.

Если придерживаться этих предположений, то распределение значений у в генеральной совокупности для данного х является нормальным со средней:

Иу_/х=а + 0х,

где и_/х обозначает среднее у для данного х при дисперсии, равной а

Линия регрессии, построенная по выборочным данным, является лучшей оценкой линии генеральной совокупности, с а — лучшей оценкой а и b — лучшей оценкой р. Так как существует множество всевозможных выборок, которые могут быть произведены из данной генеральной совокупности, нельзя быть уверенным, что эта выборка произведена именно из данной генеральной совокупности. Должно быть проведено испытание гипотез по данным выборки для того, чтобы установить соответствие выборки генеральной совокупности. Прежде всего, насколько уверенно мы можем говорить о линейной связи в исходной совокупности. Если в совокупности линейная связь отсутствует, то коэффициент корреляции генеральной совокупности р будет равен нулю и р — показатель наклона линии регрессии также будет равен нулю. До проверки линейности нам необходимо вычислить доверительные интервалы для показателя наклона р, точки пересечения а, при среднем значении у для данного х или при индивидуальном значении у для данного х. Как и в предыдущих главах, будем использовать случайную выборку для расчета выборочных статистик и для оценки соответствующих параметров совокупности.

258 4.2. Анализ данных как составная часть принятия решений