Пример 3.2. Уравнение регрессии (3.2) будем искать в виде линейного уравнения

Рис. 3.1

Уравнение регрессии (3.2) будем искать в виде линейного уравнения

(3.3)

Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.

Согласно методу наименьших квадратов

(3.4)

Система нормальных уравнений для определения параметров линейной регрессии:

(3.5)

Разделив обе части уравнений (3.5) на п, получим систему нормальных уравнений в виде:

(3.6)

где (3.7) (3.9)

(3.8) (3.10)

(3.11)

(3.12)

Коэффициент называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии) no .

Коэффициент регрессии по показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной на одну единицу.

Решая систему (3.6),

(3.13)

где — выборочная дисперсия переменной X:

, (3.14)

— выборочный корреляционный момент или выборочная

ковариация:

(3.15)

Пример 3.1. По данным табл. 3.1 найти уравнение регрессии по .

Решение. Вычислим все необходимые суммы:

Затем по формулам (3.7) – (3.15) находим выборочны характеристики и параметры уравнений регрессии:

уравнение регрессии У по X:

Из уравнения регрессии следует, что при увеличении мощности пласта X на 1 м добыча угля на одного рабочего Y увеличивается в среднем на 1,016 т (в усл. ед.).

3.3. Коэффициент корреляции

Представим уравнение (3.12) в эквивалентном виде:

В этой системе величина

(3.17)

показывает, на сколько величин s_y изменится в среднем Y, когда X увеличится на одно s_x.

Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

Рис. 3.2

Если r > 0 (b₁ > 0), то корреляционная связь между переменными называется прямой, если, r < 0 (b₁ < 0) − обратной.

Учитывая (3.13):

(3.18)

Или (3.19)

(3.20)

Для практических расчетов наиболее удобна формула (3.20).

Свойства.

1. Коэффициент корреляции принимает значения на отрезке [−1;1], т. е. −1 < r <1.Чем ближе │ r│ к единице, тем теснее связь.

2. При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох

Пример 3.2.

По данным табл. 3.1 вычислить коэффициент корреляции между переменными X и Y.

Решение. ;

По формуле (3.20)

т.е.связь между переменными тесная.

3.4. Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса−Маркова

Рассмотрим линейный регрессионный анализ, для которого функции линейна относительно оцениваемых параметров:

(3.21)

Предположим, что для оценки параметров линейной функции регрессии (3.21) взята выборка, содержащая n пар значений переменных (x_i y_i), где i =1,2,..., п. В этом случае линейная парная регрессионная модель имеет вид:

(3.22)

Основные предпосылки регрессионного анализа.

1. В модели (3.22) возмущение _i (или зависимая переменная y_i) есть величина случайная, а объясняющая переменная x_i − величина неслучайная.

2. Математическое ожидание возмущения _i равно нулю:

(3.23)

(или математическое ожидание зависимой переменной y_i равно линейной функции регрессии: .

3. Дисперсия возмущения _i (или зависимой переменной у_i) постоянна для любого i:

(3.24)

(или ) − условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной)).

4. Возмущения _i и _j (или переменные и y_j) не коррелированы:

(3.25)

5. Возмущение _i (или зависимая переменная y_i) есть нормально распределенная случайная величина.

Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.22) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии . Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия

(3.26)

где − групповая средняя, найденная по уравнению регрессии;

− выборочная оценка возмущения _i или остаток регрессии.

Теорема Гаусса−Маркова. Если регрессионная модель (3.22) удовлетворяет предпосылкам 1−4, то оценки b₀ (3.11), b₁ (3.13) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок

Таким образом, оценки b₀ и b₁ в определенном смысле являются наиболее эффективными линейными оценками параметров β₀ и β₁

3.5. Интервальная оценка функции регрессии и ее параметров

Доверительный интервал для функции регрессии (условного математического ожидания).

(3.34)