Выборочной ковариацией называется среднее произведений отклонений значений переменных величин и от их средних , : .
Ковариация характеризует рассеивание значений факторов и , а также линейную связь между ними:
– при связь между факторами прямая, т.е. большим значениям x соответствуют большие значения y;
– при связь между факторами обратная, т.е. большим значениям x соответствуют меньшие значения y;
– при линейная связь между и отсутствует.
Более подходящим измерителем взаимосвязи переменных x и y, чем ковариация, является коэффициент корреляции . Основная причина этого заключается в том, что ковариация зависит от единиц, в которых измеряются переменные x и y, в то время как коэффициент корреляции есть величина безразмерная.
Линейным коэффициентом парной корреляции факторов и называется величина, определяемая по формуле
.
Таким образом, выборочный коэффициент корреляции устанавливает не только вид связи (прямая или обратная), но и ее силу:
1) при большим значениям x соответствуют большие значения y;
2) при большим значениям x соответствуют меньшие значения y;
3) при величины некоррелированы: величина коэффициента корреляции, близкая к нулю, говорит об отсутствии линейной связи между величинами, но не об отсутствии связи между ними вообще;
4) при существует линейная функциональная зависимость между выборочными значениями и (прямая или обратная); точки лежат точно на прямой.
Коэффициент корреляции и другие характеристики регрессии определяются на основе конечного числа статистических данных (в нашем случае на основе выборки из n наблюдений). Естественно, возникает вопрос, в какой мере надежным является вывод о зависимости между переменными, сделанный только по одной выборке. Для ответа на этот вопрос применяется аппарат проверки статистических гипотез.
При этом в случае линейного коэффициента корреляции оценка тесноты связи между величинами на основе выборочных данных проводится согласно следующему алгоритму.
1. Рассчитывается выборочный коэффициент корреляции . Рассчитывается стандартная ошибка выборочного коэффициента корреляции по формуле .
2. Проверяется значимость коэффициента корреляции, т.е. существенно ли отличается от нуля или это отличие можно приписать влиянию случайности, связанной с выборкой. Для этого выдвигается нулевая гипотеза о равенстве нулю теоретического коэффициента корреляции : = 0 при альтернативной гипотезе: : 0. При проверке нулевой гипотезы используется -статистика , где – стандартная ошибка коэффициента корреляции. -статистика имеет распределение Стьюдента с степенями свободы, где n – объем выборки. По выборке находится наблюдаемое значение статистики . Для заданного уровня значимости по таблице критических точек Стьюдента определяется критическая точка . Если , то нулевая гипотеза об отсутствии корреляционной зависимости величин отвергается, т.е. линейный коэффициент корреляции значим и статистическая зависимость между величинами существует. Если < , то нулевая гипотеза принимается.
3. Для значимого коэффициента корреляции устанавливается доверительный интервал при уровне значимости , который имеет вид:
( – ; + ).
Для определения степени взаимосвязи результативного признака с фактором необходимо знать следующие дисперсии:
5. общую дисперсию результативного признака, отображающую влияние как основного, так и неучтенных факторов: , где – выборочное среднее значение результативного признака по выборке ;
6. факторную дисперсию результативного фактора, отражающую влияние только основного фактора: , где , , – значения результативного признака, полученные по уравнению регрессии;
7. остаточную дисперсию результативного признака, отражающую влияние неучтенных факторов и характеризующую меру разброса зависимой переменной вокруг линии регрессии:
,
где – оценки случайного члена регрессии в i -ом наблюдении.
При корреляционной связи результативного фактора и объясняющих факторов выполняется соотношение: , при этом = + .
Величина называется стандартной ошибкой регрессии (остаточным стандартным отклонением).
Степень взаимосвязи результативного признака с фактором в случае нелинейной регрессии оценивает индекс корреляции (0 1):
.
Чем ближе к единице, тем теснее связь рассматриваемых признаков и тем надежнее полученное уравнение регрессии. В случае нелинейной регрессии линейный коэффициент корреляции дает приближенную оценку связи и не совпадает с индексом корреляции .