Расчет коэффициента корреляции и детерминации

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии таким показателем является линейный коэффициент корреляции rxy.

Существует несколько видов формулы линейного коэффициента корреляции, приведем основные из них:

Линейный коэффициент корреляции, как известно, всегда находится в следующих пределах: -1 < rxy < 1. Знак коэффициента регрессии определяет знак коэффициента корреляции. Если b < 0, тогда — 1 < rxy < 0, и наоборот, если Ь > 0, тогда 0 < rxy < 1. Чем ближе значение коэффициента корреляции по модулю  rxy, к единице, тем теснее связь между признаками в линейной форме.

Однако, если абсолютная величина коэффициента корреляции близка к нулю, то это означает, что между рассматриваемыми признаками отсутствует линейная связь. При другом виде уравнения регрессии связь может оказаться достаточно тесной. В приведенном выше примере коэффициент корреляции равен 0,97, следовательно, в данном случае имеет место достаточно тесная связь между результатом и фактором.

Для оценки качества подбора линейного уравнения регрессии находят также квадрат коэффициента корреляции, называемый коэффициентом детерминации R = (rxy)2. Он отражает долю вариации результативного признака, объясненную с помощью уравнения регрессии, или, иными словами, долю дисперсии результата, объясненную регрессией, в общей дисперсии у:

Следовательно, величина (1-R2) характеризует долю вариации, или долю дисперсии результата у, вызванную влиянием всех остальных, не учтенных в модели факторов. Значения коэффициента детерминации могут изменяться от нуля до единицы (0 < R2 < 1) • Для рассмотренного примера R= 0,94 это означает, что уравнением регрессии объясняется 94% дисперсии результативного признака, а прочими, не учтенными в модели факторами — 6%. Чем ближе коэффициент детерминации к единице, тем меньше роль других факторов и линейное уравнение регрессии описывает лучше исходные данные.

Критерий Фишера.

После выбора уравнения линейной регрессии и оценки его параметров проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом осуществляется с помощью критерия Фишера, который называют также F-критерием. При этом выдвигается нулевая гипотез 0): коэффициент регрессии равен нулю (b = 0), следовательно, фактор х не оказывает влияния на результат у и линия регрессии параллельна оси абсцисс.

Перед тем как приступить к расчету критерия Фишер; проведем анализ дисперсии. Общую сумму квадратов отклонений у от  можно разложить на сумму квадратов отклонений, объясненную регрессией и сумму квадратов отклонений не объясненную регрессией:

Где:

 - общая сумма квадратов отклонений индивидуальных значений результата от среднего по выборке;

 - сумма квадратов отклонений объясненная регрессией;

 - сумма квадратов отклонений не объясненная регрессией, или остаточная сумма отклонений.

Общая сумма квадратов отклонений результативного признака у от среднего значения определяется влиянием различных причин. Условно всю совокупность последних можно разделить на две группы: изучаемый фактор х и прочие, случайные и не включаемые в модель факторы.

Определение дисперсии на одну степень свободы:

Так как эти дисперсии рассчитаны на одну степень свободы, их можно сравнивать между собой.

Критерий Фишера позволяет проверить нулевую гипотезу Hо том, что факторная и остаточная дисперсии на одну степень свободы равны между собой (Dфак.=Dост.).

Критерий Фишера рассчитывается по следующей формуле:

Если (Fфак.>Fтабл..), тогда гипотеза H0 отклоняется и делается вывод, что связь между у и х существенна и уравнение регрессии статистически значимо. Если (Fфак.≤Fтабл.), тогда гипотеза H0 принимается и делается вывод, что уравнение регрессии статистически незначимо, так как существует риск (при заданном уровне надежности) сделать неправильный вывод о наличии связи между х и у.

Стандартные ошибки параметров.

В линейной регрессии часто оценивается не только значимость уравнения регрессии в целом, но и значимость его отдельных параметров, а также коэффициента корреляции.

Для того чтобы осуществить такую оценку, необходимо для всех параметров рассчитывать стандартные ошибки (ma, mb, mr)

обозначив остаточную дисперсию на одну степень свободы через S2, получим

Величины стандартных ошибок применяются не только для проверки значимости параметров, но и для расчета доверительных интервалов.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: