Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века.
l Какова бы ни была конфигурация облака точек на диаграмме рассеяния – лежат ли они в точности на одной прямой, или разбросаны хаотически – любая статистическая программа всегда сможет построить уравнение регрессии. Однако в первом случае (точки лежат на одной прямой) оно будет весьма достоверным, а во втором (точки разбросаны хаотически) – нет.
l Более того, может оказаться, что через два облака, различающихся степенью близости к линейной конфигурации, будут проведены одинаковые линии регрессии.
l Тем не менее зависимость между двумя переменными может иметь различный характер даже при одинаковых линиях регрессии.
l Оказывается форма связи (линия регрессии) сама по себе не дает ответа на вопрос о тесноте (силе) связи пары переменных.
l На этот вопрос отвечает коэффициент парной корреляции. Он показывает, насколько тесно две переменные связаны между собой.
|
|
l Визуально о силе связи можно судить по тому, насколько тесно расположены точки-объекты около линии регрессии. Чем ближе точки к линии регрессии, тем сильнее связь.
l На каком из двух графиков связь между признаками сильнее (теснее), т.е. какому из графиков соответствует более высокий коэффициент корреляции?
l Коэффициент парной корреляции r принимает значения в диапазоне от –1 до +1.
l Положительные значения коэффициента корреляции r свидетельствуют о положительной связи между признаками, отрицательные – об отрицательной связи.
l Если r = 1, то между двумя переменными существует функциональная положительная линейная связь, т.е. на диаграмме рассеяния соответствующие точки лежат на одной прямой с положительным наклоном.
l Если r = –1, то между двумя переменными существует функциональная отрицательная линейная зависимость, т.е. на диаграмме рассеяния соответствующие точки лежат на одной прямой с отрицательным наклоном.
l Если r = 0, то рассматриваемые переменные линейно независимы, т.е. на диаграмме рассеяния облако точек "вытянуто по горизонтали".
Коэффициент корреляции рассчитывается по формуле:
где , — среднее значение выборок.
Или для дискретных величин: