Линейный коэффициент корреляции (Мера тесноты линейной связи)

Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века.

l Какова бы ни была конфигурация облака точек на диаграмме рассеяния – лежат ли они в точности на одной прямой, или разбросаны хаотически – любая статистическая программа всегда сможет построить уравнение регрессии. Однако в первом случае (точки лежат на одной прямой) оно будет весьма достоверным, а во втором (точки разбросаны хаотически) – нет.

l Более того, может оказаться, что через два облака, различающихся степенью близости к линейной конфигурации, будут проведены одинаковые линии регрессии.

l Тем не менее зависимость между двумя переменными может иметь различный характер даже при одинаковых линиях регрессии.

l Оказывается форма связи (линия регрессии) сама по себе не дает ответа на вопрос о тесноте (силе) связи пары переменных.

l На этот вопрос отвечает коэффициент парной корреляции. Он показывает, насколько тесно две переменные связаны между собой.

l Визуально о силе связи можно судить по тому, насколько тесно расположены точки-объекты около линии регрессии. Чем ближе точки к линии регрессии, тем сильнее связь.

l На каком из двух графиков связь между признаками сильнее (теснее), т.е. какому из графиков соответствует более высокий коэффициент корреляции?

l Коэффициент парной корреляции r принимает значения в диапазоне от –1 до +1.

l Положительные значения коэффициента корреляции r свидетельствуют о положительной связи между признаками, отрицательные – об отрицательной связи.

l Если r = 1, то между двумя переменными существует функциональная положительная линейная связь, т.е. на диаграмме рассеяния соответствующие точки лежат на одной прямой с положительным наклоном.

l Если r = –1, то между двумя переменными существует функциональная отрицательная линейная зависимость, т.е. на диаграмме рассеяния соответствующие точки лежат на одной прямой с отрицательным наклоном.

l Если r = 0, то рассматриваемые переменные линейно независимы, т.е. на диаграмме рассеяния облако точек "вытянуто по горизонтали".

Коэффициент корреляции рассчитывается по формуле:

где , — среднее значение выборок.

Или для дискретных величин:


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: