Если формула (3) линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Кейнсом была предложена линейная модель зависимости частного потребления С от располагаемого дохода Х: С=С0+ С1Х, где С0 >0 – величина автономного потребления (при уровне дохода Х=0), 1>C1>0 – предельная склонность к потреблению (C1 показывает, на сколько увеличится потребление при увеличении дохода на единицу).
В случае парной линейной регрессии имеется только один объясняющий фактор х и линейная регрессионная модель записывается в следующем виде:
у =a0+a1 х +e, (4)
где e – случайная составляющая с независимыми значениями Мe=0, De= s2.
Оценка параметров регрессии a0 и a1 производится по наблюденным значениям зависимой и объясняющей переменным (x i, y i), i=1,2,…, n, где n – число пар наблюдений (объем выборки). Рассматриваются n уравнений у i=a0+a1 х i+ei, где уклонения ei является следствием реализации случайной составляющей, и выбирают такие значения a0 и a1, которые минимизируют сумму квадратов этих уклонений, т.е. ищется минимум
|
|
Q=åiei2= åi(у i – a0 – a1 х i)2 (5)
по отношению к параметрам a0 и a1. Заметим, что указанный метод наименьших квадратов (МНК)может быть применен к любой кривой регрессии f(x). “Наилучшая” по МНК прямая линия всегда существует, но даже наилучшая не всегда является достаточно хорошей. Если в действительности зависимость у = f(x) является, например, квадратичной, то ее не сможет адекватно описать никакая линейная функция, хотя среди всех линейных функций обязательно найдется “наилучшая”.
Для отыскания минимума берутся частные производные Q по искомым параметрам (в данном случае по a0 и a1) и приравниваются к нулю. После выполнения элементарных преобразований получают так называемую систему нормальных уравнений, из которой и находятся искомые параметры. Для парной линейной регрессии получаем
a1=( – × )/( – ()2), (6)
a0= –a1 × =(() × – × )/( – ()2),
где =å xiy i/n, =å xi /n, =å yi /n, =å х i2/n.
Коэффициент a1 называется коэффициентом регрессии и обозначается ryx. Из (2) и (6) следует, что
ryx = ryx sy /sх. (7)
Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между признаками, полученными по данным выборки, в известной степени может быть распространено и на генеральную совокупность, т.е. можно выдвинуть гипотезу об имеющейся линейной связи во всей генеральной совокупности вида у =a0+a1 х.