Уравнение парной регрессии всегда дополняется показателями тесноты связи между переменными. При использовании линейной регрессии такими показателями являются выборочная ковариация и линейный коэффициент корреляции.
Выборочной ковариацией называется среднее произведений отклонений значений переменных и от своих средних величин , :
Пусть точка является центром корреляционного поля эмпирической зависимости между переменными и (рис. 3.4).
Рис. 3.4. Разброс точек корреляционного поля около средних значений
Тогда вертикальная и горизонтальная прямые, проведенные через нее, разделяют плоскость поле на четыре области. Положительный вклад в ковариацию формируется в областях I и III, а отрицательный – в областях II и IV. Если положительные вклады преобладают над отрицательными, то ковариация будет положительной, а большинство точек поля будет сосредоточено в областях I и III, группируясь возле возрастающей прямой.
Поэтому ковариация характеризует не только величину рассеивания значений факторов и , но и линейную связь между ними:
– при связь между факторами x и y прямая, т.е. большим значениям x соответствуют большие значения y;
– при связь между факторами x и y обратная, т.е. большим значениям x соответствуют меньшие значения y;
– при линейная связь между и отсутствует.
Более подходящим измерителем взаимосвязи переменных x и y, чем выборочная ковариация, является линейный коэффициент корреляции . Основная причина этого заключается в том, что ковариация зависит от единиц, в которых измеряются переменные x и y, в то время как коэффициент корреляции есть величина безразмерная.
Линейным коэффициентом корреляции факторов x и y называется величина, определяемая по формуле
.
Линейный коэффициент корреляции логически связан с коэффициентом линейной регрессии. Эта связь, в частности, проявляется через формулу
.
Качественная оценка тесноты линейной связи между переменными x и y в зависимости от величины линейного коэффициента корреляции выявляется по шкале английского статистика Чеддока (таблица 3.2). В соответствии с этой шкалой выделяются пять качественных уровней связи между двумя переменными: слабая, умеренная, заметная, высокая и весьма высокая.
Таблица 3.2. Шкала Чеддока
Теснота связи | Значение линейного коэффициента корреляции при наличии | |
прямой связи | обратной связи | |
Слабая | 0,1–0,3 | (-0,1)–(-0,3) |
Умеренная | 0,3–0,5 | (-0,3)–(-0,5) |
Заметная | 0,5–0,7 | (-0,5)–(-0,7) |
Высокая | 0,7–0,9 | (-0,7)–(-0,9) |
Весьма высокая | 0,9–0,99 | (-0,9)–(-0,99) |
Выборочный коэффициент корреляции устанавливает также напрвление линейной связи (прямая или обратная):
1) при большим значениям x соответствуют большие значения y (рисунок 3.5 а));
2) при большим значениям x соответствуют меньшие значения y (рисунок 3.5 б)).
Кроме того, он указывает, что:
– при величины x и y являются некоррелированными: величина коэффициента корреляции, близкая к нулю, говорит об отсутствии линейной связи между величинами, но не об отсутствии связи между ними вообще (рисунок 3.5 в));
– при существует линейная функциональная зависимость между выборочными значениями и (прямая или обратная); точки лежат точно на прямой.
а) б)
в)
Рис. 3.5. Значение коэффициента корреляции
в зависимости от вида корреляционного поля