Линейная регрессия (пропедевтика)

Представим зависимость y от x в виде линейной модели первого порядка:

Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i =1, …, n. Таким образом мы можем записать:

где означает предсказанное моделью значение y при данном x, b 0 и b 1 — выборочные оценки параметров модели, а — значения ошибок аппроксимации.

Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[3][4].

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

здесь средние значения определяются как обычно: , и se 2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ2 в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть оего незначимости для модели. Статистика Стьюдента: t = b / sb. Если вероятность для полученного значения и n −2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b 0, то прямая проходит через начало координат и оценка углового коэффициента равна

,

а её стандартной ошибки

Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)

Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b 0 и b 1. Иначе говоря истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

Теперь можно вычислить 100(1−α/2)-процентный доверительный интервал для значения уравнения регрессии в точке x:

,

где t (1−α/2, n −2)t -значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

Здесь m — кратность измерения y при данном x. И 100(1−α/2)-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

.

На рисунке эта 95%-я доверительная область при m =1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.

32.СУЩНОСТЬ АНАЛИЗА ОСТАТКОВ ПРИ НАЛИЧИИ РЕГРЕССИОННОЙ МОДЕЛИ. КАК МОЖНО ПРОВЕРИТЬ НАЛИЧИЕ ГОМО- ИЛИ ГЕТЕРОСКЕДАСТИЧНОСТИ ОСТАТКОВ. ОЦЕНКА ОТСУТСТВИЯ АВТОКОРРЕЛЯЦИИ ОСТАТКОВ ПРИ ПОСТРОЕНИИ СТАТИСТИЧЕСКОЙ РЕГРЕССИОННОЙ МОДЕЛИ.

С этой целью строиться график зависимости остатков ei от теоретических значений результативного признака: Если на графике получена горизонтальная полоса, то остатки ei представляют собой случайные величины и МНК оправдан, те­оретические значения ух хорошо аппроксимируют фактические значения у.

Возможны следующие случаи: если ei зависит от уx, то: 1.остатки ei не случайны.2. остатки e

i, не имеют постоянной дисперсии. 3. Остатки ei носят систематический характер в дан­ном случае отрицательные значения ei, соответствуют низким значениям ух, а положительные — высоким значениям. В этих случаях необходимо либо применять дру­гую функцию, либо вводить дополнительную информацию.

Как можно проверить наличие гомо- или гетероскедастичноси остатков?

Гомоскедастичность остатков означает, что дисперсия остатков ei одинакова для каждого значения х. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность.





Подборка статей по вашей теме: