Расчет коэффициента корреляции и детерминации

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии таким показателем является линейный коэффициент корреляции r_xy.

Существует несколько видов формулы линейного коэффициента корреляции, приведем основные из них:

Линейный коэффициент корреляции, как известно, всегда находится в следующих пределах: -1 < r_xy < 1. Знак коэффициента регрессии определяет знак коэффициента корреляции. Если b < 0, тогда — 1 < r_xy < 0, и наоборот, если Ь > 0, тогда 0 < r_xy < 1. Чем ближе значение коэффициента корреляции по модулю r_xy, к единице, тем теснее связь между признаками в линейной форме.

Однако, если абсолютная величина коэффициента корреляции близка к нулю, то это означает, что между рассматриваемыми признаками отсутствует линейная связь. При другом виде уравнения регрессии связь может оказаться достаточно тесной. В приведенном выше примере коэффициент корреляции равен 0,97, следовательно, в данном случае имеет место достаточно тесная связь между результатом и фактором.

Для оценки качества подбора линейного уравнения регрессии находят также квадрат коэффициента корреляции, называемый коэффициентом детерминации R = (r_xy)². Он отражает долю вариации результативного признака, объясненную с помощью уравнения регрессии, или, иными словами, долю дисперсии результата, объясненную регрессией, в общей дисперсии у:

Следовательно, величина (1-R²) характеризует долю вариации, или долю дисперсии результата у, вызванную влиянием всех остальных, не учтенных в модели факторов. Значения коэффициента детерминации могут изменяться от нуля до единицы (0 < R² < 1) • Для рассмотренного примера R²= 0,94 это означает, что уравнением регрессии объясняется 94% дисперсии результативного признака, а прочими, не учтенными в модели факторами — 6%. Чем ближе коэффициент детерминации к единице, тем меньше роль других факторов и линейное уравнение регрессии описывает лучше исходные данные.

Критерий Фишера.

После выбора уравнения линейной регрессии и оценки его параметров проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом осуществляется с помощью критерия Фишера, который называют также F-критерием. При этом выдвигается нулевая гипотез (Н₀): коэффициент регрессии равен нулю (b = 0), следовательно, фактор х не оказывает влияния на результат у и линия регрессии параллельна оси абсцисс.

Перед тем как приступить к расчету критерия Фишер; проведем анализ дисперсии. Общую сумму квадратов отклонений у от можно разложить на сумму квадратов отклонений, объясненную регрессией и сумму квадратов отклонений не объясненную регрессией:

Где:

- общая сумма квадратов отклонений индивидуальных значений результата от среднего по выборке;

- сумма квадратов отклонений объясненная регрессией;

- сумма квадратов отклонений не объясненная регрессией, или остаточная сумма отклонений.

Общая сумма квадратов отклонений результативного признака у от среднего значения определяется влиянием различных причин. Условно всю совокупность последних можно разделить на две группы: изучаемый фактор х и прочие, случайные и не включаемые в модель факторы.

Определение дисперсии на одну степень свободы:

Так как эти дисперсии рассчитаны на одну степень свободы, их можно сравнивать между собой.

Критерий Фишера позволяет проверить нулевую гипотезу H_о том, что факторная и остаточная дисперсии на одну степень свободы равны между собой (D_фак.=D_ост.).

Критерий Фишера рассчитывается по следующей формуле:

Если (F_фак.>F_табл..), тогда гипотеза H₀ отклоняется и делается вывод, что связь между у и х существенна и уравнение регрессии статистически значимо. Если (F_фак.≤F_табл.), тогда гипотеза H₀ принимается и делается вывод, что уравнение регрессии статистически незначимо, так как существует риск (при заданном уровне надежности) сделать неправильный вывод о наличии связи между х и у.

Стандартные ошибки параметров.

В линейной регрессии часто оценивается не только значимость уравнения регрессии в целом, но и значимость его отдельных параметров, а также коэффициента корреляции.

Для того чтобы осуществить такую оценку, необходимо для всех параметров рассчитывать стандартные ошибки (m_a, m_b_, m_r)

обозначив остаточную дисперсию на одну степень свободы через S2, получим

Величины стандартных ошибок применяются не только для проверки значимости параметров, но и для расчета доверительных интервалов.

5 6 7 8 9 10 11

Подборка статей по вашей теме: