Парная линейная корреляция

Для оценки тесноты связи у и х можно использовать коэффициент , но он зависит от единиц измерения переменных. Поэтому предпочтительнее переходить к безразмерной характеристике, в качестве которой в статистике используют среднее квадратическое отклонение .

Разделив обе части уравнения (2.7) на и умножив правую часть на , получим новое уравнение

В этом уравнении величину

(2.8)

называют линейным коэффициентом выборочной парной корреляции. Этот коэффициент показывает, на сколько величин изменится в среднем у при изменении х на одну величину .

Формула (2.8) показывает, что знак «+» или «–» коэффициента корреляции определяется знаком коэффициента , т. к. и неотрицательны. Если , то корреляционную связь называют прямой. При этом увеличение одной из переменных ведет к увеличению средней величины другой переменной. Если , то корреляционную связь называют обратной. При этом увеличение одной из переменных ведет к уменьшению средней величины другой переменной.

Коэффициент корреляции обладает следующими свойствами:

1. Для любых процессов или явлений величина коэффициента корреляции находится в интервале , т. е. .

2. При связь между у и х отсутствует. При этом корреляционное поле имеет форму круга, а линия регрессии располагается горизонтально.

3. При связь между у и х называют корреляционной. При этом корреляционное поле имеет форму эллипса, а угол наклона линии регрессии острый (но не более 45°), или тупой (но не менее 135°). Каждому значению х соответствует несколько значений у. Чем ближе к единице, тем меньше интервал этих значений, эллипс корреляционного поля более вытянут вдоль линии регрессии, угол её наклона ближе к 45° (при ) или к 135° (при ), связь между у и х теснее.

Если связь между у и х считают несущественной; если связь между у и х считают существенной; если связь между у и х считают тесной.

4. При , т. е. при или при связь между у и х называют линейной функциональной зависимостью. При этом корреляционное поле превращается в линию регрессии, а угол её наклона равен 45° (при ) или 135° (при ). Таким образом, все значения у располагаются на линии регрессии.

В случае нелинейной регрессии тесноту связи у и х оценивают с помощью индекса корреляции :

2.4. Основные положения регрессионного анализа.
Теорема Гаусса-Маркова

Основные предпосылки регрессионного анализа заключаются в следующем:

1.В модели (2.1) ошибка (или зависимая переменная ) есть величина случайная, а объясняющая переменная – величина неслучайная.

2.Математическое ожидание ошибки равно нулю:

(или математическое ожидание зависимой переменной равно линейной функции регрессии .

3. Дисперсия ошибки постоянна для любого i:

(или ) – условие гомоскедастичности или равноизменчивости ошибки (или зависимой переменной ).

4. Ошибки и (или переменные. и ) не коррелированны:

5. Ошибка (или зависимая переменная ) есть нормально распределенная случайная величина.

В этом случае модель (2.1) называют классической нормальной линейной регрессионной моделью (Classical Normal Linear Regression model).

Для получения уравнения регрессии достаточно предпосылок 1–4. Требование выполнения предпосылки 5 (т. е. рассмотрение «нормальной регрессии») необходимо для оценки точности уравнения регрессии и его параметров. Оценкой модели (2.1) по выборке является уравнение регрессии (2.2). Параметры этого уравнения и определяют на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (2.1) определяют с помощью дисперсии ошибок или остаточной дисперсии . Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия

В математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от среднего значения делят не на число наблюдений n, а на число степеней свободы (degress of freedom) , равное разности между числом независимых наблюдений n случайной величины и числом связей m, ограничивающих свободу их изменения, т. е. числом m уравнений, связывающих эти наблюдения (числом неизвестных параметров в уравнении регрессии) или числом факторных признаков р в уравнении регрессии. Поэтому в знаменателе стоит число степеней свободы , т. к. две степени свободы теряются при определении двух параметров и прямой линии регрессии из системы нормальных уравнений (2.4).

Оценки и параметров регрессии являются «наилучшими» в соответствии с теоремой Гаусса-Маркова:

Если регрессионная модель (2.1 ) удовлетворяет предпосылкам 1–4, то оценки и имеют наименьшую дисперсию в классе всех линейных несмещенных оценок (Best Linear Unbiased Estimator или BLUE).

Таким образом, оценки и являются наиболее эффективными линейными оценками параметров регрессии.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: