Определение 1. Зависимость двухслучайных величин называют корреляционной, если изменение одной случайной величины приводит к
изменению среднего значения другой случайной величины.
Основные задачи теории корреляции:
1. определить есть ли связь между случайными величинами, если есть, то найти уравнение зависимости (уравнение регрессии);
2. определить силу (тесноту) связи между случайными величинами.
Для определения самого факта связи между случайными величинами и тесноты связи служит коэффициент корреляции. Уравнение регрессии позволяет предсказать, какие изменения в среднем будет претерпевать признак при изменении другого признака.
Если уравнения регрессии являются линейными, то есть графиками будут прямые линии, то корреляционная зависимость называется линейной.
Пусть извлечена выборка объема
и исследуются два количественных признака
и
. Результаты измерений занесены в таблицу 6.
Таблица 6
Значения
|
|
| … |
|
Значения
|
|
| … |
|
Выборочный коэффициент корреляции
находится по формуле:
.
Свойства выборочного коэффициента корреляции:
1. Значения коэффициента корреляции изменяются на отрезке [–1;1]:
.
2. Чем модуль
больше и ближе к 1, тем теснее связь между изучаемыми признаками.
3. Если
, то между признаками функциональная связь.
4. Если
, то между изучаемыми признаками нет линейной корреляционной зависимости.
5. Если
, то между признаками прямая (положительная) связь и если
, то между признаками обратная (отрицательная) связь.
Выборочное уравнение прямой регрессии
на
имеет вид:
,
где
,
– выборочные средние. За приближенные значения
и
принимают соответственно
и
:
,
.
Выборочное уравнение прямой регрессии
на
имеет вид:
.
Пример. Психологи провели тестирование среди пациентов психоневрологического диспансера. Возраст пациентов колебался от 14 до 34 лет. Затем была проведена случайная выборка объёмом n=10. Была поставлена задача: определить есть ли зависимость возраста испытуемого
от значения показателя развития заболевания
. Результаты этого измерения представлены в таблице 7:
Таблица 7
| 25 | 35 | 45 | 55 | 65 | 75 | 85 | 95 | 105 | 115 |
| 14 | 18 | 19 | 20 | 23 | 23 | 24 | 26 | 29 | 34 |
Требуется вычислить выборочный коэффициент корреляции и найти выборочное уравнение прямой регрессии
на
.
Решение. Вычислим выборочный коэффициент корреляции по формуле:
.
Для вычисления величин, входящих в формулу, составим вспомогательную таблицу 8, в которой результаты измерений записаны столбцами. Внизу каждого из столбцов вычислены суммы для нахождения средних
и
. Далее расположены столбцы, в которых вычисляются разности
и
, их квадраты и произведения. Значения этих столбцов суммируются (последняя строка), чтобы получились величины, необходимые для подстановки в формулу. Отметим, что суммы в столбцах, в которых вычислены разности
и
будут всегда равны нулю.
Таблица 8
|
|
|
|
|
|
|
| 25 35 45 55 65 75 85 95 105 115 | 14 18 19 20 23 23 24 26 29 34 | – 45 – 35 – 25 – 15 – 5 5 15 25 35 45 | 2025 1225 625 225 25 25 225 625 1225 2025 | – 9 – 5 – 4 – 3 0 0 1 3 6 11 | 81 25 16 9 0 0 1 9 36 121 | 405 175 100 45 0 0 15 75 210 495 |
| 700 | 230 | 0 | 8250 | 0 | 298 | 1520 |
Находим средние
и
(смотри данные в таблице, 1–2 столбцы):
= 700/10 = 70,
= 230/10 = 23.
Выполнив все вычисления в таблице (3 – 7 столбцы), получаем:
,
,
.
Подставляя эти значения в соответствующую формулу, вычислим коэффициент корреляции:

Таким образом,
выбранных сосен имеет место очень сильная (т.к. значение
близко к 1) положительная (т.к.
) корреляция между общей длиной ствола и длиной его части без ветвей.
Найдем теперь выборочное уравнение прямой регрессии
на
.
,
где
,

.
Тогда

Подставляя в выборочное уравнение прямой регрессии
на
:
,
,
,
, получим

или
.
Окончательно, получаем
искомое уравнение прямой регрессии
на
.






