Определения. Парная регрессия. Метод наименьших квадратов (МНК)

Если формула (3) линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Кейнсом была предложена линейная модель зависимости частного потребления С от располагаемого дохода Х: С=С0+ С1Х, где С0 >0 – величина автономного потребления (при уровне дохода Х=0), 1>C1>0 – предельная склонность к потреблению (C1 показывает, на сколько увеличится потребление при увеличении дохода на единицу).

В случае парной линейной регрессии имеется только один объясняющий фактор х и линейная регрессионная модель записывается в следующем виде:

у =a0+a1 х +e, (4)

где e – случайная составляющая с независимыми значениями Мe=0, De= s2.

Оценка параметров регрессии a0 и a1 производится по наблюденным значениям зависимой и объясняющей переменным (x i, y i), i=1,2,…, n, где n – число пар наблюдений (объем выборки). Рассматриваются n уравнений у i=a0+a1 х i+ei, где уклонения ei является следствием реализации случайной составляющей, и выбирают такие значения a0 и a1, которые минимизируют сумму квадратов этих уклонений, т.е. ищется минимум

Q=åiei2= åi(у i – a0 – a1 х i)2 (5)

по отношению к параметрам a0 и a1. Заметим, что указанный метод наименьших квадратов (МНК)может быть применен к любой кривой регрессии f(x). “Наилучшая” по МНК прямая линия всегда существует, но даже наилучшая не всегда является достаточно хорошей. Если в действительности зависимость у = f(x) является, например, квадратичной, то ее не сможет адекватно описать никакая линейная функция, хотя среди всех линейных функций обязательно найдется “наилучшая”.

Для отыскания минимума берутся частные производные Q по искомым параметрам (в данном случае по a0 и a1) и приравниваются к нулю. После выполнения элементарных преобразований получают так называемую систему нормальных уравнений, из которой и находятся искомые параметры. Для парной линейной регрессии получаем

a1=( × )/( – ()2), (6)

a0= –a1 × =(() × × )/( – ()2),

где xiy i/n, xi /n, yi /n, х i2/n.

Коэффициент a1 называется коэффициентом регрессии и обозначается ryx. Из (2) и (6) следует, что

ryx = ryx sy /sх. (7)

Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между признаками, полученными по данным выборки, в известной степени может быть распространено и на генеральную совокупность, т.е. можно выдвинуть гипотезу об имеющейся линейной связи во всей генеральной совокупности вида у =a0+a1 х.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: