Определение 1. Зависимость двухслучайных величин называют корреляционной, если изменение одной случайной величины приводит к
изменению среднего значения другой случайной величины.
Основные задачи теории корреляции:
1. определить есть ли связь между случайными величинами, если есть, то найти уравнение зависимости (уравнение регрессии);
2. определить силу (тесноту) связи между случайными величинами.
Для определения самого факта связи между случайными величинами и тесноты связи служит коэффициент корреляции. Уравнение регрессии позволяет предсказать, какие изменения в среднем будет претерпевать признак при изменении другого признака.
Если уравнения регрессии являются линейными, то есть графиками будут прямые линии, то корреляционная зависимость называется линейной.
Пусть извлечена выборка объема и исследуются два количественных признака и . Результаты измерений занесены в таблицу 6.
Таблица 6
Значения | … | |||
Значения | … |
Выборочный коэффициент корреляции находится по формуле:
|
|
.
Свойства выборочного коэффициента корреляции:
1. Значения коэффициента корреляции изменяются на отрезке [–1;1]:
.
2. Чем модуль больше и ближе к 1, тем теснее связь между изучаемыми признаками.
3. Если , то между признаками функциональная связь.
4. Если , то между изучаемыми признаками нет линейной корреляционной зависимости.
5. Если , то между признаками прямая (положительная) связь и если , то между признаками обратная (отрицательная) связь.
Выборочное уравнение прямой регрессии на имеет вид:
,
где , – выборочные средние. За приближенные значения и принимают соответственно и :
, .
Выборочное уравнение прямой регрессии на имеет вид:
.
Пример. Психологи провели тестирование среди пациентов психоневрологического диспансера. Возраст пациентов колебался от 14 до 34 лет. Затем была проведена случайная выборка объёмом n=10. Была поставлена задача: определить есть ли зависимость возраста испытуемого от значения показателя развития заболевания . Результаты этого измерения представлены в таблице 7:
Таблица 7
25 | 35 | 45 | 55 | 65 | 75 | 85 | 95 | 105 | 115 | |
14 | 18 | 19 | 20 | 23 | 23 | 24 | 26 | 29 | 34 |
Требуется вычислить выборочный коэффициент корреляции и найти выборочное уравнение прямой регрессии на .
Решение. Вычислим выборочный коэффициент корреляции по формуле:
.
Для вычисления величин, входящих в формулу, составим вспомогательную таблицу 8, в которой результаты измерений записаны столбцами. Внизу каждого из столбцов вычислены суммы для нахождения средних и . Далее расположены столбцы, в которых вычисляются разности и , их квадраты и произведения. Значения этих столбцов суммируются (последняя строка), чтобы получились величины, необходимые для подстановки в формулу. Отметим, что суммы в столбцах, в которых вычислены разности и будут всегда равны нулю.
|
|
Таблица 8
25 35 45 55 65 75 85 95 105 115 | 14 18 19 20 23 23 24 26 29 34 | – 45 – 35 – 25 – 15 – 5 5 15 25 35 45 | 2025 1225 625 225 25 25 225 625 1225 2025 | – 9 – 5 – 4 – 3 0 0 1 3 6 11 | 81 25 16 9 0 0 1 9 36 121 | 405 175 100 45 0 0 15 75 210 495 |
700 | 230 | 0 | 8250 | 0 | 298 | 1520 |
Находим средние и (смотри данные в таблице, 1–2 столбцы):
= 700/10 = 70, = 230/10 = 23.
Выполнив все вычисления в таблице (3 – 7 столбцы), получаем:
,
,
.
Подставляя эти значения в соответствующую формулу, вычислим коэффициент корреляции:
Таким образом, выбранных сосен имеет место очень сильная (т.к. значение близко к 1) положительная (т.к. ) корреляция между общей длиной ствола и длиной его части без ветвей.
Найдем теперь выборочное уравнение прямой регрессии на .
,
где ,
.
Тогда
Подставляя в выборочное уравнение прямой регрессии на : , , , , получим
или
.
Окончательно, получаем
искомое уравнение прямой регрессии на .