Коэффициент детерминации R2 характеризует качество регрессионной модели. Другими словами коэффициент детерминации показывает, какая доля общей вариации выходной переменной y обусловлена зависимостью её от входной переменной.
Напомним, что значения различных величин, полученных расчетами, мы условились обозначать «?».
В случае парной регрессии значения yi = a + bxi выражают ординаты точек (xi,y?i), лежащих на линии регрессии, в то время как точки с координатами (xi,yi), вообще говоря, на этой прямой не лежат. Имеет место равенство
.
Для суммы квадратов отклонений yi от среднего ` y:
(TSS — total sum of squares) имеем равенство TSS = RSS + ESS, где
— сумма квадратов отклонений, объясненная регрессией (RSS — regression sum of squares),
— остаточная сумма квадратов (ESS — error sum of squares).
Коэффициент детерминации определяется по формуле:
(6.1)
Из (6.1) видно, что R 2Î [0,1] и чем меньше R2 отличается от 1, тем лучше регрессионная модель.
В математической статистике вводится выборочный коэффициент корреляции
между данными наблюдений (xi,yi), i = 1, 2, …, n. Напомним (см. 4.5), что
|
|
Поскольку (см. 4.6)
величину r можно представить в виде
С другой стороны yi = a + bxi, y = a + bx, откуда следует, что
Поэтому
т.е. коэффициент детерминации равен квадрату выборочного коэффициента корреляции.
Заметим, что попутно мы познакомились и с суммами квадратов из последней строчки таблицы из таблицы §5.