Гауссовское (нормальное) распределение ошибок в линейной модели наблюдений 2 страница

При сделанных предположениях   являются наблюдаемыми значенияминормально распределенных случайных величин , которые независимы в совокупности и для которых

так что

  ~

В отличие от  , случайные величины  имеют распределения, отличающиеся сдвигами.

Определенную указанным образом модель наблюдений мы будем называть нормальной линейной моделью с   объясняющими переменными. Иначе ее еще называют нормальной линейной моделью множественной регрессии переменной y на переменные x 1,..., xp. Термин “множественная” указывает на использование в правой части модели наблюдений двух и более объясняющих переменных, отличных от постоянной. Термин “регрессия” имеет определенные исторические корни и используется лишь в силу традиции.

Оценивание неизвестных коэффициентов модели  методом наименьших квадратов состоит в минимизации по всем возможным значениям   суммы квадратов

Минимум этой суммы достигается при некотором наборе значений коэффициентов

 

так что

Это минимальное значение мы опять обозначаем RSS, так что

и называем   остаточной суммой квадратов.

Коэффициент детерминации R2   определяется как

где

Обозначая

 

(подобранные - fitted - значения объясняющей переменной по оцененной линейной модели связи), и определяя  остаток (residual) от i-го наблюдения  как

мы получаем:

Обозначая

- объясненная моделью (explained) сумма квадратов, или регрессионная сумма квадратов, мы так же, как и в случае простой линейной регрессии с , имеем разложение

так что

И опять, это разложение справедливо только при наличии постоянной составляющей в модели линейной связи. При этом, также, здесь

т.е. коэффициент детерминации равен квадрату выборочного коэффициента корреляции  между переменными  и . Последний называется множественным коэффициентом корреляции (multiple-R).

Для поиска значений , минимизирующих сумму

следует приравнять нулю частные производные этой суммы (как функции от ) по каждому из аргументов . В результате получаем систему нормальных уравнений

или

Это система  линейных уравнений с   неизвестными . Ее можно решать или методом подстановки или по правилу Крамера с использованием соответствующих определителей. В векторно-матричной форме эта система имеет вид

где

- матрица значений  объясняющих переменных в  наблюдениях;

- транспонированная матрица;

    и

соответственно, вектор-столбец значений объясняемой переменной в  наблюдениях и вектор-столбец оценок  неизвестных коэффициентов. Система нормальных уравнений имеет единственное решение, если выполнено условие

(4) матрица XTX невырождена, т.е. ее определитель отличен от нуля:

которое можно заменить условием

(4) столбцы матрицы X линейно независимы.

При выполнении этого условия матрица  (размера  ) имеет обратную к ней матрицу . Умножая в таком случае обе части последнего уравнения слева на матрицу , находим искомое решение системы нормальных уравнений:

Введем дополнительные обозначения

 ,  , , .

Тогда модель наблюдений

можно представить в матрично-векторной форме

Вектор подобранных значений имеет вид

и вектор остатков равен

Определяющим для всего последующего является то обстоятельство, что в нормальной линейной модели с несколькими объясняющими переменными оценки   коэффициентов   как случайные величины имеют нормальные распределения (хотя эти случайные величины уже не являются независимыми в совокупности).

Действительно, поскольку , то оценки   являются линейными комбинациями значений , т.е. имеют вид

где  - коэффициенты, определяемые значениями объясняющих переменных. Поскольку же у нас  -  наблюдаемые значения случайных величин  , то    является наблюдаемым значением случайной величины  которую мы также будем обозначать  :

Ранее мы выяснили, что при наших предположениях

  ~

Поэтому случайные величины   также будут нормальными как линейные комбинации независимых нормально распределенных случайных величин.

Можно показать, что математическое ожидание случайной величины   равно

(   является несмещенной оценкой истинного значения коэффициента ), а дисперсия этой случайной величины равна -му диагональному элементу матрицы :

Рассмотренная ранее модель простой линейной регрессии

вкладывается в модель множественной линейной регрессии с :

, , , .

Матрица  имеет вид

Учитывая, что

находим:


2.5. НОРМАЛЬНАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
ДЛЯ КОЭФФИЦИЕНТОВ

Рассматривая нормальную модель линейной множественной регрессии

с   ~ i. i. d. , мы установили, что оценка наименьших квадратов  неизвестного истинного значения  коэффициента при — ой объясняющей переменной имеет нормальное распределение, причем

Рассмотрим теперь случайную величину

получаемую путем вычитания из случайной величины  ее математического ожидания и деления полученной разности на корень из дисперсии  (т. е. путем центрирования и нормирования случайной величины ). При совершении этих двух действий мы не выходим из семейства нормальных случайных величин, получая опять же нормальную случайную величину, но только уже с другими математическим ожиданием и дисперсией. Используя упомянутые ранее свойства математического ожидания и дисперсии, находим:

так что

~

Иными словами, в результате центрирования и нормирования случайной величины  мы получили случайную величину, имеющую стандартное нормальное распределение, т. е. нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. Функцию распределения и функцию плотности распределения такой случайной величины обозначают, соответственно, как  и :

Для каждого значения , определим символом  число, для которого , так что если случайная величина  имеет стандартное нормальное распределение, то тогда

Такое число называется квантилью уровня p стандартного нормального распределения.

  zp
1-p

Заштрихованная площадь под графиком плотности стандартного нормального распределения находится правее квантили  уровня ;

эта квантиль равна . Поэтому площадь под кривой, лежащая левее точки , равна , а заштрихованная площадь равна . Последняя величина есть вероятность того,что случайная величина , имеющая стандартное нормальное распределение, примет значение, превышающее .

Если мы возьмем какое-нибудь число  в пределах от  до , , и выделим интервал

то получим следующую картину:

Из симметрии функции плотности нормального распределения вытекает равенство площадей областей, заштрихованных на последнем рисунке. Но площадь правой заштрихованной области равна ; следовательно, такова же и площадь левой заштрихованной области. Это, в частности, означает, что вероятность того, что случайная величина  примет значение, не превышающее , равна , так что

Часть площади под кривой стандартной нормальной плотности, лежащая в пределах выделенного интервала, меньше единицы на сумму площадей заштрихованных областей («хвостов»), т. е. равна

Эта величина равна вероятности того, что случайная величина , имеющая стандартное нормальное распределение, примет значение в пределах указанного интервала[2]:

Но ранее мы установили, что стандартное нормальное распределение имеет случайная величина

Поэтому для этой случайной величины справедливо соотношение

так что с вероятностью, равной , выполняется двойное неравенство

т. е.

Иными словами, с вероятностью, равной 1-a,случайный интервал

накрывает истинное значение коэффициента q j. Такой интервал называется доверительным интервалом для q j с уровнем доверия (доверительной вероятностью) 1-a, или (1-a)- доверительным интервалом, или 100 (1-a)- процентным доверительным интервалом для q j.

Последний рисунок был получен при значении a = 0.05. Поэтому площади заштрихованных областей («хвосты») равны 0.025, сумма этих площадей равна 0.05, и площадь области под кривой в пределах интервала равна 1-0.05 = 0.95. Остается заметить, что

так что случайный интервал

является 95%-доверительным интервалом для q j. Его длина

пропорциональна  — среднеквадратической ошибке (среднеквадратическому отклонению) оценки коэффициента q j.

Хотелось бы, конечно, прямо сейчас построить доверительные интервалы для коэффициентов линейной модели по каким-нибудь реальным статистическим данным. Однако этому препятствует то обстоятельство, что в выражения для дисперсий

входит не известное нам значение s 2.

2.6. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ
КОЭФФИЦИЕНТОВ: РЕАЛЬНЫЕ
СТАТИСТИЧЕСКИЕ ДАННЫЕ

Итак, практическому построению доверительных интервалов для коэффициентов  нормальной модели линейной множественной регрессии

с   ~ i. i. d.  препятствует вхождение в выражения для дисперсий

неизвестного значения s 2.

Единственный выход из этого положения — заменить неизвестное значение s 2 какой-нибудь подходящей его оценкой (estimate), которую можно было бы вычислить на основании имеющихся статистических данных. Такого рода оценки принято называть статистиками (statistics).

В данной ситуации такой подходящей оценкой для неизвестного значения   является статистика

Поскольку сумма  является квадратичной функцией от случайных величин , то она является случайной величиной, а следовательно, случайной величиной является и статистика S2. Математическое ожидание этой случайной величины равно :

т. е.  — несмещенная оценка для .

Замечание. В частном случае   модель наблюдений принимает вид

(случайная выборка из распределения N (q1,s2) ). Несмещенной оценкой для  служит






Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: