Теснота линейной связи — коэффициент корреляции г

В приведенном выше примере данные подтвердили обоснованность линейной модели. Однако мы не имеем объективного представления о том, насколько хорошо аппроксимирует данные линейная модель. Подбор на основе графика в данном случае оказался точным, но он может быть обманчивым, так как распреде­ление точек на графике зависит от выбора масштаба. Необходимо объективное измерение тесноты линейной связи.


Гл. 8. Линейная регрессия



Мы полагаем, что связь между переменными существует. Рассмотрим две переменные х и у. Поле точек представлено на диаграмме рассеяния (рис. 8.7), на которой показана и линия регрессии, полученная методом наименьших квадратов. На этом графике добавлена линия у = у.



у - о + Ьх линия регрессии У - У среднее значение у


Рис. 8.7. Структура дисперсии зависимой переменной у

Если мы возьмем конкретное значение х, допустим х(, то в любой точке выборки значению х будет соответствовать значение у. Фактически это могут быть несколько точек с одним и тем же значением х и разными значениями у, но в каждом случае фактическое значение у может быть разбито на два компонента. Это можно записать как: действительное значение у равно значению исходя из линейной связи между у и х плюс значение у, обусловленное другими факторами:

у = у + с,

где е — остаток, разница между фактическим значением у и значением у на прямой.

Линейная связь только частично объясняет вариации значений у. Необъяснен-ная часть является остатком, е. Если бы связь между х и у была абсолютно линейной, то все е были бы равными 0. По мере того, как сила линейной связи уменьшается, остаток увеличивается. Это соотношение формирует основу, на которой мы можем рассчитать силу линейной связи. Мы должны рассмотреть все точки, а не только одну-две. Общая вариация значения у может быть записана как:

Е(у-у)2,

Общая вариация значений у не зависит от значения х. Общее изменение у с учетом линейной связи между х и у может быть записано:

£(У-У)2.


250 4.2. Анализ данных как составная часть принятия решений

Это выражение соответствует той части вариации у, которая объясняется регрессией, т.е. введением независимой переменной х, поскольку вариация х и у связывается уравнением у - а + Ьх. Вариация у, которая не объясняется линейной связью, записывается как:

Icy-?)2-

Эта вариация возникает из-за других факторов, не включенных в линейную модель, т.е. эта вариация не объясняется данной регрессией.

Отношение объясненной вариации к общей вариации используется как мера линейности связи. Чем теснее связь, тем ближе это отношение к 1. Это отношение называется коэффициентом детерминации, обозначается г и имеет вид:

г2_ £(у -у) 2 " 1(у-у)2 '

Коэффициент детерминации часто выражается в процентах и показывает величину дисперсии у, которая объясняется независимой переменной х, включен­ной в модель в случае полной линейной связи между хну г=1, или 100%. Если связь отсутствует, то г равно 0. Коэффициент детерминации не определяет, увеличивается ли или уменьшается у с ростом х. Эта информация может быть получена с помощью коэффициента корреляции Пирсона, который включает произведение переменных х и у; он обозначается г. Этот коэффициент может быть получен как квадратный корень из коэффициента детерминации:

г. л/ Ку -у> ' Е(у-у)2 '

Для вычислений полезно алгебраически преобразовать это выражение и вос­пользоваться следующей формулой:

f n£xy-£x£y

= V(n£x2-(£x)2).(n£y2-(5;y)2)'

Это и есть выборочный коэффициент корреляции. Значение г всегда лежит между -1 и +1. Знак г такой же, как и знак коэффициента регрессии Ь. Если Ь — положителен, показывая положительную связь между переменными, то коэффи­циент корреляции г будет также положительным. Если коэффициент регрессии Ь меньше нуля, то и коэффициент корреляции г также отрицательный.

По мере того, как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина г будет ближе к 1. По мере уменьшения силы связи значение г будет ближе к 0, а точки будут более рассеяны. При г=0 линейной связи не существует. Но это не значит, что не существует вообще никакой связи. На рис. 8.8 и 8.9 отражены случаи, когда значения коэф­фициента корреляции приближаются к 0.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: