Ковариация и корреляция как меры связи

Проверка гипотез о связях, если речь идет о более чем одной переменной, предполагает одновременные изменения и измерения их безотносительно к указаниям направленности влияний (какая из переменных рассматривается как влияющая на другую). Статистической мерой связи служит при этом выборочный коэффициент ковариации S _xy. Он подсчитывается как среднее произведений отклонений каждой переменной:

Именно ковариация характеризует связь двух переменных Х и Y.

Ковариация дает количественную характеристику диаграммы рассеивания, на которой переменные обозначены осями, а отдельные наблюдения, т.е. полученные эмпирические данные, – точками в прямоугольной системе координат. Множество точек образует «облако», по форме которого судят о связи переменных Х и Y.

Если связь положительна, то более высоким значениям одной переменной (X) чаще соответствуют и более высокие значения другой переменной (Y). Этот случай представлен на рис. 12.1. Чем больше по величине коэффициент корреляции, тем более вытянутым выглядит на диаграмме рассеивания это «облако» данных.

Заметим, что ковариация переменной с самой собой – это дисперсия.

Рис.12.1. Диаграмма рассеивания.

При обсуждении трех основных условий причинного вывода применительно к экспериментальным данным речь идет также о ковариации независимой и зависимой переменных. Однако здесь подразумевается неслучайность характера связи между изменениями этих переменных, а не необходимость подсчета коэффициентов ковариации или корреляции. Для количественной оценки экспериментально полученных эффектов обычно используются меры различий, а не меры связей. В корреляционном по способу сбора данных исследовании предпочтение отдается коэффициенту корреляции как более удобному способу количественной оценки величины связи.

Корреляция есть отношение полученной ковариации к максимально возможной:

где r – процент от максимально возможной ковариации, которая в данном эмпирическом исследовании достигнута.

Другое определение коэффициента корреляции: корреляция есть ковариация стандартизованных переменных. Обозначение r происходит от понятия регрессии. Ф. Гальтон и К. Пирсон использовали его в исследованиях регрессии физических измерений от одного поколения к другому. Это обозначение закрепилось за коэффициентом корреляции Пирсона, основанном на подсчете произведения моментов, в то время как другие коэффициенты корреляции закрепили за собой другие обозначения (φ – «фи»-коэффициент, τ – «тау» Кендэлла и др.). Коэффициент регрессии также имеет разные обозначения, в том числе и r.

В отличие от коэффициентов ковариации и корреляции, которые направлены на установление меры связи между переменными, коэффициент рефессии используется для цели предсказания одной переменной по данным другой. При этом становится важным определиться, значение какой из переменных – Х или Y – служит для предсказания значений другой. Это отражается в указании последовательности х и у в индексе коэффициента регрессии. Соответственно коэффициенты регрессии с разным порядком следования переменных в индексации будут иметь разные величины, в то время как для коэффициентов ковариации и корреляции указание последовательности переменных в индексе не имеет значения, так как это будет одна и та же величина связи.