Однофакторный линейный регрессионный анализ (простая регрессия). Метод наименьших квадратов

Случай статистической зависимости двух случайных переменных наиболее простой как с точки зрения визуальной идентификации, так и с точки зрения математического анализа. Переменная, описывающая причину, называется в регрессионном анализе фактором, а зависимая переменная – откликом. Ключевой процедурой регрессионного анализа является метод наименьших квадратов.

С учетом случайного характера величин, зависимость пар X, Y в линейном регрессионном анализе задается в виде , где , – пары точек, лежащие на искомой прямой, а – случайное возмущение. Идея метода наименьших квадратов состоит в том, чтобы минимизировать сумму квадратов случайных возмущений – отклонений значений ординат статистической зависимости от значений, лежащих на искомой прямой. В результате минимизации соответствующей целевой функции по Лагранжу, получаются формулы для определения коэффициента наклона

и свободного члена

искомой прямой.

Важно при этом понимать, что, в силу случайного характера выборок X и Y, величины и сами являются случайными – эти величины суть статистики наклона и смещения (относительно нуля вдоль ординаты) регрессионной прямой. Поэтому для каждой из них возможна постановка задачи проверки гипотезы, например об отличии коэффициента наклона от 0, которая приводит к оценке степени значимости статистики.

Для оценки степени статистической значимости отклонения коэффициента от некоторого заданного значения используется t-распределение Стьюдента; вычисляется величина

,

где – выборочная дисперсия для коэффициента наклона и определяется, находится ли ее значение внутри или вне пределов критического интервала, задаваемого с учетом уровня доверительности (чаще всего – 0,05).

Аналогичным образом вычисляется величина t для полученной оценки . Критические значение t определяются по таблицам или с помощью функции РАСПРСТЬЮДЕН с учетом числа степеней свободы для оценок .

По сути дела, в процедуре линейной регрессии производится сглаживание диаграммы рассеяния с помощью линейной зависимости. Качество такого сглаживания оценивается величиной коэффициента детерминации

.

Очевидно, что чем ближе значение коэффициента детерминации к 1, тем лучше качество сглаживания (на практике приемлемым считают >0.8).

Коэффициент детерминации тесно связан с корреляционным коэффициентом – , причем знак выбирается совпадающий со знаком .


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: