y | х | fy | |||||
10 | 15 | 20 | 25 | 30 | 35 | ||
2 7 12 17 22 27 | 2 7 9 8 2 4 12 5 3 1 4 2 1 5 | 2 7 19 21 10 6 | |||||
fx | 22 | 23 | 8 | 4 | 3 | 5 | N=65 |
Линейная корреляция
Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r, который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного фактора, какая — влиянием других факторов. При положительной зависимости величина коэффициента корреляции изменяется от 0 до + 1, при отрицательной — от О до —1. Если r = 0, то связь между признаками отсутствует. Принято считать, что при r < 0,5 корреляционная зависимость слабая, при r = 0,5 - 0,7 - средняя, при r = 0,7 - 0,99 — сильная.
Коэффициент корреляции приближенно характеризует тесноту связи между признаками. Поэтому иногда при высоком значении коэффициента корреляции и небольшом объеме выборки связь между признаками может быть слабой. Мерой корреляционной связи является величина dxy,получившая название коэффициента детерминации, который определяется по формуле d ху=r2.
Коэффициент детерминации указывает на долю взаимной связи между признаками. Например, если r = 0,30, то dxy = 0,09, т. е. 9 % всех изменений одного признака связано с изменением другого. Отсюда следует, что значения r ≥ 0,70, при которых истинная взаимообусловленность признаков составляет около 50%, можно считать высокими, значения r, равные 0,5—0,7,— средними и r ≤ 0,5— низкими.
Одна и та же величина коэффициента корреляции будет по-разному определять достоверность зависимости признаков для малых и больших выборок. Например, при Р=0,95 для N=5 достоверны значения r ≥ 0,878, для N=20 достоверной величиной будет r ≥ 0,444, для N=100 достоверны значения r ≥ 0,196.
Расчет коэффициента корреляции для невзвешенных рядов. При работе с малыми выборками используется следующая формула для расчета коэффициента корреляции:
Таблица 3.2
Расчет показателей для вычисления коэффициента корреляции r
xi | xi – Mx | (xi – Mx)2 | yi | yi – My | (yi – My)2 | (xi – Mx)- (yi – My) |
69 | —14 | 196 | 18 | —42 | 1764 | 588 |
70 | —13 | 169 | 48 | -12 | 144 | 156 |
72 | —11 | 121 | 42 | —18 | 324 | 198 |
75 | —8 | 64 | 31 | —29 | 841 | 232 |
83 | 0 | 0 | 56 | —4 | 16 | 0 |
90 | 7 | 49 | 84 | 24 | 576 | 168 |
90 | 7 | 49 | 56 | —4 | 16 | —28 |
91 | 8 | 64 | 68 | 8 | 64 | 64 |
95 | 12 | 144 | 90 | 30 | 900 | 360 |
95 | 12 | 144 | 107 | 47 | 2209 | 564 |
Σ 830 Мх=83 | 0 | 1000 | 600 | 0 | 6854 | +2302 |
Му=10 |
(3.1)
где (xi — Мх), (уi — Му) —отклонения значений индивидуальных вариант хi и уi от их средних значений Мх и Му.
Чтобы получить исходные данные для формулы (3.1), сопряженные варианты обрабатывают по рекомендуемой форме (табл. 3.2). Достоверность вычисленного коэффициента корреляции может быть определена двумя путями: с помощью таблицы коэффициентов корреляции (приложение 7) сравнить рассчитанный коэффициент корреляции rф с табличным rт; установить достоверность коэффициента корреляции через критерий Стьюдента.
Наиболее простой способ установления достоверности рассчитанного коэффициента корреляции — сравнение его с табличным значением. Если rф>rт, то влияние фактора на признак достоверно; наоборот, если rф<rт, то коэффициент корреляции не достоверен и влияние фактора на признак не существенно.
При использовании критерия Стьюдента для доказательства достоверности rвначале рассчитывают стандартную (квадратическую) ошибку коэффициента корреляции по формуле
, (3.2)
где NП — число сопряженных пар в сравниваемых выборочных совокупностях.
Значение коэффициента корреляции записывают с учетом его ошибки: r ± тr. Затем вычисляют критерий Стьюдента для коэффициента корреляции:
tr = r/mr . (3.3)
Критерий Стьюдента можно также рассчитать иначе:
. (3.4)
Если tф > tт, то корреляционная связь существенна, при tф < tт— недостоверна.
Пример. Исследованиями установлено, что на содержание подвижного марганца в почве влияет реакция среды. Необходимо доказать достоверность установленной зависимости. Получены следующие исходные данные (х — гидролитическая кислотность, мг-экв. па 100 г почвы; у — содержание подвижного марганца, мг/кг почвы):
х 83 72 69 90 90 95 95 91 75 70
у 56 42 18 84 56 107 90 58 31 48
Вначале строим график (рис. 3.3), который указывает на существование между исследуемыми показателями положительной линейной зависимости, что требует вычисления коэффициента корреляции. Для этого проводим расчет данных (см. табл. 3.2). Необходимые суммарные результаты подставляем в формулу (3.1) и вычисляем коэффициент корреляции:
.
Поскольку r ф = 0,87 > rт = 0,77 при Р = 0,99 и υ = 8, то зависимость между содержанием подвижного марганца и гидролитической кислотностью определяется как достоверная положительная.
Более сложно определить достоверность зависимости с помощью критерия t(см. формулу 3.4):
Поскольку tф = 5,02 > tт = 3,36 при υ = 8 и Р = 0,99 (см. приложение 4), то зависимость между рассматриваемыми показателями достоверна.
Рис. 3.3. Зависимость содержания
подвижного марганца (у) от гидро-
литической кислотности (х)
Таким образом, оба метода подтвердили достоверную зависимость между рассматриваемыми признаками.
Расчет коэффициента корреляции для взвешенных рядов. Большие выборки требуют несколько иного расчета данных. Сначала строится корреляционная решетка, по которой определяется форма связи между признаками. Коэффициент корреляции находится по формуле
, (3.5)
где fx,y— частота рядов х и у, ах, ау —отклонения вариант рядов х и у от условных средних Мх, Му; fх, fу— частоты рядов хну соответственно; σ х, σ у — средние квадратические отклонения рядов х и у соответственно.
Отклонения вариант в рядах устанавливаются следующим образом:
, ,
где xi, уi — индивидуальные варианты; сх, сy — классовые интервалы в рядах х и у, Мх, Му —средние арифметические.
Средние квадратические отклонения вычисляются по формулам:
; (3.6)
; (3.7)
При расчете коэффициента корреляции на микрокалькуляторах или ЭВМ для малых и больших выборок используется формула (3.1).
Пример. Следует установить, достоверна ли зависимость между содержанием физической глины (х, %) и содержанием магния в минеральных почвах (у, %). Количество пар наблюдений NП =70. Корреляционная решетка указывает на линейную зависимость между признаками (табл. 3.3). Для ее построения сопряженные выборки разбиваются на классы (см. § 1.3). Число классов в вариационных рядах по признакам х и у не обязательно должно быть одинаковым. Значения функции у в корреляционной решетке желательно расположить по возрастанию снизу вверх, чтобы реально представить форму зависимости и выбрать для расчета соответствующий коэффициент (r или η ). Определяется центральное положение корреляционной решетки, что обычно соответствует максимальной частоте (f = 8); в ряду х против максимальной частоты будет находиться условное среднее Мх=35, в ряду у — среднее My = 2,0 (выделены полужирным шрифтом).
Далее вычисляют условные отклонения ах, ау, представляющие собой отклонения середины классов от среднего значения классов, деленные на классовый интервал, т. е. разницу между соседними серединами классов (сх=15—5=10; cy =1—0,5=0,5). Приведем пример для расчета ах и ау: аx = (5-35):10= -3 для первого столбца, ау = (3,5 – 2):0,5 = 3 для первой строки. Затем вычисляются произведения условных отклонений на соответствующие им частоты (axfx; ayfy) и записываются в отведенные для них столбцы и строки со своим знаком, например: ayfy = 3·8 = 24; ахfх=(- 3)·б= -18. Квадраты условных отклонений умножаются на соответствующие им частоты; ; и т. д. Полученные данные суммируем по столбцам и строкам и используем для дальнейших расчетов по формулам (3.6, 3.7, 3.5):
; ;
= 0,86
Поскольку r ф = 0,86 > rт = 0,30 при Р = 0,99 и υ = 68, то зависимость содержания общего магния от содержания физической глины в минеральной почве положительная, достоверная и достаточно высокая.
Таблица 3.3