Для оценки тесноты связи у и х можно использовать коэффициент
, но он зависит от единиц измерения переменных. Поэтому предпочтительнее переходить к безразмерной характеристике, в качестве которой в статистике используют среднее квадратическое отклонение
.
Разделив обе части уравнения (2.7) на
и умножив правую часть на
, получим новое уравнение
.
|
В этом уравнении величину
| (2.8) |
называют линейным коэффициентом выборочной парной корреляции. Этот коэффициент показывает, на сколько величин
изменится в среднем у при изменении х на одну величину
.
Формула (2.8) показывает, что знак «+» или «–» коэффициента корреляции определяется знаком коэффициента
, т. к.
и
неотрицательны. Если
, то корреляционную связь называют прямой. При этом увеличение одной из переменных ведет к увеличению средней величины другой переменной. Если
, то корреляционную связь называют обратной. При этом увеличение одной из переменных ведет к уменьшению средней величины другой переменной.
Коэффициент корреляции обладает следующими свойствами:
1. Для любых процессов или явлений величина коэффициента корреляции находится в интервале
, т. е.
.
2. При
связь между у и х отсутствует. При этом корреляционное поле имеет форму круга, а линия регрессии располагается горизонтально.
3. При
связь между у и х называют корреляционной. При этом корреляционное поле имеет форму эллипса, а угол наклона линии регрессии острый (но не более 45°), или тупой (но не менее 135°). Каждому значению х соответствует несколько значений у. Чем ближе
к единице, тем меньше интервал этих значений, эллипс корреляционного поля более вытянут вдоль линии регрессии, угол её наклона ближе к 45° (при
) или к 135° (при
), связь между у и х теснее.
Если
связь между у и х считают несущественной; если
связь между у и х считают существенной; если
связь между у и х считают тесной.
4. При
, т. е. при
или при
связь между у и х называют линейной функциональной зависимостью. При этом корреляционное поле превращается в линию регрессии, а угол её наклона равен 45° (при
) или 135° (при
). Таким образом, все значения у располагаются на линии регрессии.
В случае нелинейной регрессии тесноту связи у и х оценивают с помощью индекса корреляции
:
.
|
2.4. Основные положения регрессионного анализа.
Теорема Гаусса-Маркова
Основные предпосылки регрессионного анализа заключаются в следующем:
1.В модели (2.1) ошибка
(или зависимая переменная
) есть величина случайная, а объясняющая переменная
– величина неслучайная.
2.Математическое ожидание ошибки
равно нулю:
|
(или математическое ожидание зависимой переменной
равно линейной функции регрессии
.
3. Дисперсия ошибки
постоянна для любого i:
|
(или
) – условие гомоскедастичности или равноизменчивости ошибки
(или зависимой переменной
).
4. Ошибки
и
(или переменные.
и
) не коррелированны:
|
5. Ошибка
(или зависимая переменная
) есть нормально распределенная случайная величина.
В этом случае модель (2.1) называют классической нормальной линейной регрессионной моделью (Classical Normal Linear Regression model).
Для получения уравнения регрессии достаточно предпосылок 1–4. Требование выполнения предпосылки 5 (т. е. рассмотрение «нормальной регрессии») необходимо для оценки точности уравнения регрессии и его параметров. Оценкой модели (2.1) по выборке является уравнение регрессии (2.2). Параметры этого уравнения
и
определяют на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (2.1) определяют с помощью дисперсии ошибок или остаточной дисперсии
. Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия
.
|
В математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от среднего значения делят не на число наблюдений n, а на число степеней свободы (degress of freedom)
, равное разности между числом независимых наблюдений n случайной величины и числом связей m, ограничивающих свободу их изменения, т. е. числом m уравнений, связывающих эти наблюдения (числом неизвестных параметров в уравнении регрессии) или числом факторных признаков р в уравнении регрессии. Поэтому в знаменателе стоит число степеней свободы
, т. к. две степени свободы теряются при определении двух параметров
и
прямой линии регрессии из системы нормальных уравнений (2.4).
Оценки
и
параметров регрессии являются «наилучшими» в соответствии с теоремой Гаусса-Маркова:
Если регрессионная модель (2.1 ) удовлетворяет предпосылкам 1–4, то оценки
и
имеют наименьшую дисперсию в классе всех линейных несмещенных оценок (Best Linear Unbiased Estimator или BLUE).
Таким образом, оценки
и
являются наиболее эффективными линейными оценками параметров регрессии.
.
.
.






