Если переменные «х» и «у» измерены в числовых шкалах в качестве меры связи между ними выступает коэффициент корреляции Пирсона (rxy). Обычно коэффициент корреляции Пирсона называют выборочным коэффициентом корреляции или просто коэффициентом корреляции.
Данный коэффициент измеряет только степень прямолинейной связи и направление связи. Криволинейную (нелинейную) связь данный коэффициент не измеряет.
Рабочая формула для вычисления коэффициента корреляции:
В числителе – ковариация – разность между суммой произведений «х» на «у» и произведением сумм по «х» и «у», деленная на объем выборки. В знаменателе – корень квадратный из произведения SSx на SSy.
Коэффициент корреляции варьирует от - 1 до + 1. Эти два предела варьирования представляют собой функциональные связи: обратную (r = - 1) и прямую (r = 1). при приближении к нулю связь уменьшается, при r = 0 связь полностью отсутствует.
В дополнении к коэффициенту корреляции часто вычисляют коэффициент детерминации (D), который представляет собой квадрат коэффициента корреляции:
|
|
Коэффициент детерминации показывает долю изменчивости переменных, которая детерминируется корреляцией между ними.
Значение r = 0,7 является пороговым, ниже которого связь считается слабой или средней, но выше – сильной.
Пример 4. Получены данные о длине листовой пластинки («х», мм) и диаметре штамба («у», см) у 31 сеянца алычи (табл. 5.12.):
Таблица 5.12. Длина листовой пластинки «х», мм и диаметр штамба «у», см у 31 сеянца алычи
х | 76,6 | 72,2 | 67,0 | 66,5 | 63,3 | 65,4 | 63,9 | 63,1 | 63,0 | 62,5 | 62,2 |
у | 4,56 | 4,79 | 4,49 | 4,32 | 4,59 | 4,32 | 4,67 | 4,29 | 4,57 | 4,20 | 4,12 |
х | 61,0 | 60,2 | 60,0 | 59,6 | 59,5 | 58,9 | 58,0 | 57,8 | 57,6 | 57,0 | |
у | 4,13 | 4,70 | 3,80 | 4,23 | 3,76 | 4,08 | 4,61 | 4,37 | 4,30 | 4,00 | |
х | 56,8 | 55,4 | 55,0 | 53,8 | 53,7 | 52,0 | 51,4 | 51,0 | 50,9 | 48,5 | |
у | 3,82 | 4,12 | 4,19 | 4,16 | 4,09 | 4,12 | 4,02 | 4,31 | 4,06 | 4,03 |
Необходимо вычислить коэффициент корреляции между длиной листовой пластинки и диаметром штамба.
Решение:
1. Копируем исходные данные в табличный редактор Excel. Транспонируем таблицу. Формируем два столбца: для признаков «х» и «у».
2. Строим точечную корреляционную решетку, задаем нужный формат осям абсцисс и ординат, добавляем линию тренда.
Рис 6.4. Точечная корреляционная решетка и тренд распределения 31 сеянца алычи по длине листовой пластинки (х) и диаметру штамба (у)
Исходя из распределения точек на корреляционной решетке, следует вывод о том, что связь между признаками, несомненно, имеется, прямая, средней степени.
Вычисляем компоненты формулы коэффициента корреляции:
Σ xiyi = 7868,663
Σ xi = 1843,8
Σ yi = 131,82
Σ x 2 i = 110851,4
Σ y 2 i = 562,6978
3. Вычислим коэффициент корреляции:
4. Вычислим коэффициент детерминации: 0,562=0,31
|
|
5. Вывод: корреляция между длиной листовой пластинки и диаметром штамба прямая, ниже средней степени.
Достаточный объём выборки для оценки достоверности коэффициента корреляции Пирсона. Достаточная численность выборки (N) при изучении коэффициента корреляции представляет собой число пар значений переменных (признаков) у объектов.
Для её расчета необходимо коэффициент корреляции «r» преобразовать в величину «z». Преобразование «r» в «z» можно также осуществлять по специальной статистической таблице (приложение 2.8) или вручную.
Достаточная численность выборки определяется по формуле:
где: z – преобразованная величина «r»;
tst – критерий Стьюдента t 05 или t 01.
Пример 5. Планируется определить достаточный объём выборки (число пар значений признаков у различных сортов абрикоса) для оценки достоверности коэффициента корреляции «r» между признаками «диаметр плода, мм» и «масса плода, г.
Единицами выборки будут выступать различные сорта абрикоса. У каждого сорта будут определяться две средние арифметические: 1) по диаметру плода (мм); 2) по массе плода (г). Для этого по каждому сорту отбирается репрезентативная выборка, например, по 10-15 плодов, и у каждого плода измеряются 2 параметра «диаметр плода, мм» и «масса плода, г. После этого вычисляются по каждому сорту пара средних арифметических. Совокупность этих пар у разных сортов абрикоса и является исходными данными для вычисления коэффициента корреляции.
Достоверность коэффициента корреляции во многом зависит от объема выборки. В малых выборках достоверность корреляции, как правило, трудно доказать. В больших выборках достоверность корреляции доказать значительно проще. Для доказательства достоверности используют преобразование «r» в показатель «z».
Зададим необходимые для вычислений параметры. Основным параметром является величина коэффициента корреляции «r». Предположим, различные степени связи: от слабой до сильной. Зададим следующие 5 величин «r»: 0,10; 0,30; 0,50; 0,70; 0,90. Рабочая гипотеза состоит в том, что связь между диаметром и массой плода сильная и близка к функциональной. Однако, для исследования зависимости достаточного объема выборки от величины коэффициента корреляции проанализируем все 5 значений коэффициента корреляции. Вначале проведем z -преобразование:
Преобразование коэффициентов корреляции Пирсона «r» в показатели «z»
r | z |
0,10 | 0,1003 |
0,30 | 0,3095 |
0,50 | 0,5493 |
0,70 | 0,8673 |
0,90 | 1,4722 |
Зададим величину t -критерия: t 01=2,58 и вычислим достаточную численность пар значений признаков у различных сортов абрикоса (N) при различных «z»:
На основе сравнительного анализа достаточных объемов выборок можно утверждать следующее:
1) для доказательства достоверности слабых связей ( r <<0,3) необходимы очень большие по объему выборки: N около 700 и более;
2) для связей средней величины (r = 0,3-0,6) N варьирует от 25 до 75 пар значений признаков;
3) для сильных связей (r >0,7) N варьирует от 6 до 12 пар значений признаков, то есть, выборки могут быть очень малыми.
Определим достоверность коэффициентов корреляции путем сравнения t 01 =2,58 с величиной . Если t 01 > нулевая гипотеза принимается, связь недостоверная. Если t 01 < нулевая гипотеза отвергается, связь достоверная:
Таблица 5.14. Достаточные объемы выборок (N) при различных величинах коэффициента корреляции (t 01=2,58)
r | z | N | t= | H0 |
0,10 | 0,1003 | 662 | 0,26 | принимается |
0,30 | 0,3095 | 73 | 2,59 | отклоняется |
0,50 | 0,5493 | 25 | 2,58 | отклоняется |
0,70 | 0,8673 | 12 | 2,60 | отклоняется |
0,90 | 1,4722 | 6 | 2,94 | отклоняется |
Таким образом, для доказательства достоверности очень слабой корреляции (r = 0,10 и менее) необходимы выборки, включающие более 670 пар значений признаков. Для доказательства достоверности всех остальных корреляций (r >0,1) допустимы достаточные объемы от 6 до 73 пар значений признаков.
|
|
Практическое задание 6.4. У 20 плодов яблони сорта «Айдаред» были измерены масса плода «х» (г) и диаметр плода «у» (мм). Постройте точечную корреляционную решетку, вычислите коэффициент корреляции Пирсона, коэффициент детерминации.
х | 165 | 176 | 175 | 168 | 167 | 172 | 175 | 180 | 179 | 173 |
y | 56 | 75 | 70 | 61 | 61 | 63 | 72 | 80 | 76 | 68 |
x | 166 | 178 | 169 | 169 | 170 | 176 | 180 | 169 | 177 | 176 |
y | 58 | 76 | 60 | 64 | 63 | 71 | 78 | 63 | 75 | 71 |
Решение: