Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.15).На первый взгляд подходящим измерителем тесноты связи Y от Х является коэффициент регрессии ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяетсяY, когда Х увеличивается на одну единицу. Однако зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов Х выразить не в млн руб., а в тыс. руб.
Очевидно, что для «исправления» как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.
Представим уравнение (1.15) в эквивалентном виде:
(1.22)
|
|
В этой системе величина
r = (1.23)
показывает, на сколько величин изменится в среднем Y, когда X увеличится на одно .Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
На рис. 1.2 приведены две корреляционные зависимости переменной Y по Х. В случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).
Нетрудно видеть, что r совпадает по знаку с (а значит, и с )
Если r > 0 ( > 0, > 0), то корреляционная связь между переменными называется прямой, если r < 0 ( < 0, < 0) – обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.
Учитывая равенство (1.16), формулу для r представим в виде:
(1.24)
Отсюда видно, что формула для r симметрична относительно двух переменных, т.е. переменные Х и Y можно менять местами. Тогда аналогично формуле (1.24) можно записать:
(1.25)
Найдя произведение обеих частей равенств(1.24) и (1,25), получим:
(1.26)
или
(1.27)
т.е. коэффициент корреляции r переменных Х и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.
Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки n), аналогичные свойствам коэффициента корреляции двух случайных величин.
|
|
1. Коэффициент корреляции принимает значения на отрезке [-1; 1], т.е.
(1.28)
В зависимости от того, насколько приближается к 1, различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную, т.е. чем ближе к 1, тем теснее связь.
2. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.
3. При r = ± 1 корреляционная связь представляет линейную функциональную зависимость. При этом линии регрессии Y по Х и Х по Y совnадают и все наблюдаемые значения располагаются на общей прямой.
4. При r = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии Y по X и X по Y параллельны осям координат. Равенство r = 0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелированности переменных), но не вообще отсутствии корреляционной, а тем более статистической зависимости. Выборочный коэффициент корреляции r является оценкой генерального коэффициента корреляции ρ (о котором речь пойдет дальше), тем более точной, чем больше объем выборки п. И указанные выше свойства, строго говоря, справедливы для ρ. Однако при достаточнобольшом nих можно распространить и на r.