Оценка тесноты линейной связи между переменными

Уравнение парной регрессии всегда дополняется показателями тесноты связи между переменными. При использовании линейной регрессии такими показателями являются выборочная ковариация и линейный коэффициент корреляции.

Выборочной ковариацией называется среднее произведений отклонений значений переменных и от своих средних величин , :

Пусть точка является центром корреляционного поля эмпирической зависимости между переменными и (рис. 3.4).

Рис. 3.4. Разброс точек корреляционного поля около средних значений

Тогда вертикальная и горизонтальная прямые, проведенные через нее, разделяют плоскость поле на четыре области. Положительный вклад в ковариацию формируется в областях I и III, а отрицательный – в областях II и IV. Если положительные вклады преобладают над отрицательными, то ковариация будет положительной, а большинство точек поля будет сосредоточено в областях I и III, группируясь возле возрастающей прямой.

Поэтому ковариация характеризует не только величину рассеивания значений факторов и , но и линейную связь между ними:

– при связь между факторами x и y прямая, т.е. большим значениям x соответствуют большие значения y;

– при связь между факторами x и y обратная, т.е. большим значениям x соответствуют меньшие значения y;

– при линейная связь между и отсутствует.

Более подходящим измерителем взаимосвязи переменных x и y, чем выборочная ковариация, является линейный коэффициент корреляции . Основная причина этого заключается в том, что ковариация зависит от единиц, в которых измеряются переменные x и y, в то время как коэффициент корреляции есть величина безразмерная.

Линейным коэффициентом корреляции факторов x и y называется величина, определяемая по формуле

.

Линейный коэффициент корреляции логически связан с коэффициентом линейной регрессии. Эта связь, в частности, проявляется через формулу

.

Качественная оценка тесноты линейной связи между переменными x и y в зависимости от величины линейного коэффициента корреляции выявляется по шкале английского статистика Чеддока (таблица 3.2). В соответствии с этой шкалой выделяются пять качественных уровней связи между двумя переменными: слабая, умеренная, заметная, высокая и весьма высокая.

Таблица 3.2. Шкала Чеддока

Теснота связи Значение линейного коэффициента корреляции при наличии
прямой связи обратной связи
Слабая 0,1–0,3 (-0,1)–(-0,3)
Умеренная 0,3–0,5 (-0,3)–(-0,5)
Заметная 0,5–0,7 (-0,5)–(-0,7)
Высокая 0,7–0,9 (-0,7)–(-0,9)
Весьма высокая 0,9–0,99 (-0,9)–(-0,99)

Выборочный коэффициент корреляции устанавливает также напрвление линейной связи (прямая или обратная):

1) при большим значениям x соответствуют большие значения y (рисунок 3.5 а));

2) при большим значениям x соответствуют меньшие значения y (рисунок 3.5 б)).

Кроме того, он указывает, что:

– при величины x и y являются некоррелированными: величина коэффициента корреляции, близкая к нулю, говорит об отсутствии линейной связи между величинами, но не об отсутствии связи между ними вообще (рисунок 3.5 в));

– при существует линейная функциональная зависимость между выборочными значениями и (прямая или обратная); точки лежат точно на прямой.

а) б)

в)

Рис. 3.5. Значение коэффициента корреляции

в зависимости от вида корреляционного поля


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: