Элементы корреляционного и регрессионного анализа. Задачи типа 6

 

Связи между различными явлениями в природе сложны и многообразны, их можно определенным образом классифицировать. В технике и естествознании часто речь идет о функциональной зависимости между переменными х и у, когда каждому возможному значению х поставлено в однозначное соответствие определенное значение у, например, зависимость между давлением и объемом газа (закон Бойля-Мариотта).

В реальном мире многие явления природы происходят в обстановке действия многочисленных факторов, влияние каждого из которых мало, а число их велико. В этом случае связь теряет свою однозначность и изучаемая физическая система переходит не в определенное состояние, а в одно из возможных для нее состояний. Зависимость между величинами Х и У называется статистической, если каждому значению одной переменной соответствует несколько значений другой, встречающихся не одинаково часто. Иными словами, каждому значению одной величины Х соответствует закон распределения другой величины У.

Статистическая зависимость между величинами Х и У называется корреляционной, если изменение величины Х влечет за собой изменение среднего значения величины У.

Пример. Изучается зависимость между величинами Х и У. Каждому значению Х соответствует несколько значений У.

Х У
2 5, 6, 10
3 6, 10, 12
4 10, 12, 14

Условной средней  называется среднее арифметическое значений У, соответствующих данному значению Х. Так

; ; .

Заметим, что каждому значению величины Х соответствует единственное значение условной средней, т.е. зависимость является функциональной: .

Следовательно, корреляционной зависимостью между величинами Х и У называется функциональная зависимость условной средней  от х. Уравнение зависимости  называется уравнением регрессии у на х.

График функции  называется линией регрессии у на х. Аналогично можно вычислить условные средние , определить зависимость  и построить линию регрессии х на у.

В корреляционном анализе решают две основные задачи:

1) Установить форму корреляционной связи, т.е. установить вид функций f(x), φ(y) (линейные, квадратические, показательные и др.).

Для определения вида зависимости в прямоугольной системе координат строят точки, координаты которых (х, у) получены в результате наблюдений. Если точки расположены, например, вблизи некоторой прямой, то корреляцию называют линейной.

2) Оценить тесноту корреляционной связи степенью рассеивания значений у около условной средней .

Большое рассеивание свидетельствует о слабой зависимости у от х или об ее отсутствии.

Малое рассеивание свидетельствует о наличии тесной связи между х и у.

Пусть установлено, что зависимость между признаками Х и У имеет линейный характер. Тогда уравнение регрессии может быть представлено в виде:

.

При этом х называется регрессором, угловой коэффициент прямой а 0 называется коэффициентом регрессии у на х и обозначается . Если исследуемая зависимость представлена в виде , то коэффициент b 0 называется коэффициентом регрессии х на у и обозначается . В качестве меры тесноты связи в случае линейной зависимости используют коэффициент корреляции r:

.

Если r > 0, то увеличение одной величины ведет к увеличению другой величины; если r < 0, то увеличение одной величины ведет к уменьшению другой. Если r = 0, то рассматриваемые признаки не связаны линейной зависимостью. Чем больше , тем теснее линейная связь между Х и У, и при  переходит в функциональную. При  - связь слабая, при  - средняя, при  - сильная, при  - значительная, почти функциональная. Коэффициент корреляции r, как и другой выборочный показатель, служит оценкой для генерального истинного коэффициента корреляции, его ошибка при п < 100 . Пусть в результате наблюдений получены значения величин Х и У:

x i x 1 x 2 x n
y i y 1 y 2 y n

Уравнение регрессии будем искать в виде: y = a 0 x + a 1. Параметры этого уравнения a 0 и a 1 определим методом наименьших квадратов. Суть метода состоит в следующем. Предположим, что у =f(x) – искомая формула зависимости. Разности f(x i) – y i = εi, i = 1, 2,…, n, назовем отклонениями. Параметры формулы у =f(x) подбирают так, чтобы сумма квадратов отклонений была наименьшей. В рассматриваемой задаче искомая формула f(x)= a 0 x + a 1.

Тогда отклонение εi= a 0xi+ a 1–yi. Согласно методу наименьших квадратов подберем a 0 и a 1 так, чтобы сумма  была наименьшей. При любых значениях a 0, a 1 функция , следовательно, если она имеет экстремум, то это будет минимум.

Необходимые условия экстремума функции двух переменных:

Или

Преобразуем систему уравнений к виду:

 

Система называется нормальной системой метода наименьших квадратов. Решить ее можно, например, по правилу Крамера.

Тогда , , при этом коэффициент а 0 = . Чтобы найти коэффициент регрессии , следует в формуле  поменять местами х и у: .

Коэффициент корреляции r определим по формуле:

.

Ошибку коэффициента корреляции найдем по формуле .

Пример.  Результаты измерений величин Х и У представлены таблицей:

x i 14 15 16 18 19 17 18 20
у i 13,3 15,1 16,7 19,9 22,5 18,7 20,5 24,9

1) Построить в прямоугольной системе координат заданные точки; убедиться, что величины Х и У связаны линейной зависимостью.

2) Составить уравнение регрессии у(х). Построить полученную прямую.

3) Вычислить коэффициент корреляции r и его ошибку Sr; оценить тесноту связи между Х и У.

Решение. Составим расчетную таблицу:

 

xi yi xiyi  
14 13,3 186,2 196 176,89  
15 15,1 226,5 225 228,01  
16 16,7 267,2 256 279,89  
18 19,6 352,8 324 384,16  
19 22,5 427,5 361 506,25  
17 18,7 317,9 289 349,69  
18 20,5 369 324 420,25  
20 24,9 498 400 620,01  
: 137 151,3 2645,1 2375  2964,15 n = 8

 

Составим нормальную систему уравнений:

Решим ее по правилу Крамера:

,

,

.

Отсюда , .

Искомое уравнение регрессии   у = 1,873 х – 13,165. Для построения полученной прямой найдем две точки:

х 1,0 20
у 5,6 24,3

Коэффициент корреляции найдем по формуле:

, где ,

,

. Следовательно, связь между Х и У сильная, почти функциональная. Ошибка коэффициента корреляции:

 

Построим точки (x i, y i) и прямую линии регрессии.

Рисунок 5.1 – Прямая линия регрессии

 

Вопросы для самоконтроля.

1. Какие значения может принимать коэффициент корреляции?

2. Как определяется значимость коэффициента корреляции?

3. Что называется регрессией у на х?

4. Как задается парная линейная регрессия?

5. Какой метод используется для вычисления коэффициентов парной линейной регрессии?

6. Как определяются коэффициенты парной линейной регрессии?

Рекомендуемая литература: [1, c.182-186, 253-264], [2, c.190-196].

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: