Схема корреляционной решетки

 

y

х

fy

10 15 20 25 30 35
2 7 12 17 22 27

2

7

9  8  2

4 12 5

      3  1  4  2

                                 1  5

2 7 19 21 10 6
fx 22 23 8 4 3 5 N=65

Линейная корреляция

 

Если зависимость между признаками на графике ука­зывает на линейную корреляцию, рассчитывают коэффи­циент корреляции r, который позволяет оценить тесноту связи переменных величин, а также выяснить, какая до­ля изменений признака обусловлена влиянием основного фактора, какая — влиянием других факторов. При поло­жительной зависимости величина коэффициента корре­ляции изменяется от 0 до + 1, при отрицательной — от О до —1. Если r = 0, то связь между признаками отсутству­ет. Принято считать, что при r < 0,5 корреляционная за­висимость слабая, при r = 0,5 - 0,7 - средняя, при r = 0,7 - 0,99 — сильная.

Коэффициент корреляции приближенно характеризу­ет тесноту связи между признаками. Поэтому иногда при высоком значении коэффициента корреляции и не­большом объеме выборки связь между признаками мо­жет быть слабой. Мерой корреляционной связи является величина dxy,получившая название коэффициента де­терминации, который определяется по формуле d ху=r2.

Коэффициент детерминации указывает на долю вза­имной связи между признаками. Например, если r = 0,30, то dxy = 0,09, т. е. 9 % всех изменений одного признака связано с изменением другого. Отсюда следует, что зна­чения r ≥ 0,70, при которых истинная взаимообусловлен­ность признаков составляет около 50%, можно считать высокими, значения r, равные 0,5—0,7,— средними и r ≤ 0,5— низкими.

Одна и та же величина коэффициента корреляции бу­дет по-разному определять достоверность зависимости признаков для малых и больших выборок. Например, при Р=0,95 для N=5 достоверны значения r ≥ 0,878, для N=20 достоверной величиной будет r ≥ 0,444, для N=100 достоверны значения r ≥ 0,196.

Расчет коэффициента корреляции для невзвешенных рядов. При работе с малыми выборками используется следующая формула для расчета коэффициента корреля­ции:

Таблица 3.2

Расчет показателей для вычисления коэффициента корреляции r

xi xi – Mx (xi – Mx)2 yi yi – My (yi – My)2 (xi – Mx)- (yi – My)
69 —14 196 18 —42 1764 588
70 —13 169 48 -12 144 156
72 —11 121 42 —18 324 198
75 —8 64 31 —29 841 232
83 0 0 56 —4 16 0
90 7 49 84 24 576 168
90 7 49 56 —4 16 —28
91 8 64 68 8 64 64
95 12 144 90 30 900 360
95 12 144 107 47 2209 564

Σ 830

Мх=83

0

1000 600

0

6854

+2302

    Му=10

                                             (3.1)

где (xiМх), (уiМу) —отклонения значений индивиду­альных вариант хi и уi от их средних значений Мх и Му.

Чтобы получить исходные данные для формулы (3.1), сопряженные варианты обрабатывают по рекомендуемой форме (табл. 3.2). Достоверность вычисленного коэффи­циента корреляции может быть определена двумя путя­ми: с помощью таблицы коэффициентов корреляции (при­ложение 7) сравнить рассчитанный коэффициент корре­ляции rф с табличным rт; установить достоверность коэф­фициента корреляции через критерий Стьюдента.

Наиболее простой способ установления достоверности рассчитанного коэффициента корреляции — сравнение его с табличным значением. Если rф>rт, то влияние фак­тора на признак достоверно; наоборот, если rф<rт, то коэффициент корреляции не достоверен и влияние фак­тора на признак не существенно.

При использовании критерия Стьюдента для доказа­тельства достоверности rвначале рассчитывают стан­дартную (квадратическую) ошибку коэффициента кор­реляции по формуле

,                                                    (3.2)

где NП — число сопряженных пар в сравниваемых выбо­рочных совокупностях.

Значение коэффициента корреляции записывают с учетом его ошибки: r ± тr. Затем вычисляют критерий Стьюдента для коэффициента корреляции:

tr = r/mr .                                                               (3.3)

Критерий Стьюдента можно также рассчитать иначе:

.                                                (3.4)

Если tф > tт, то корреляционная связь существенна, при tф < tт— недостоверна.

 

Пример. Исследованиями установлено, что на содержание подвижного марганца в почве влияет реакция среды. Необходимо доказать достоверность установленной зависимости. Получены сле­дующие исходные данные — гидролитическая кислотность, мг-экв. па 100 г почвы; у — содержание подвижного марганца, мг/кг почвы):

         х 83 72 69 90 90 95 95 91 75 70

         у 56 42 18 84 56 107 90 58 31 48

Вначале строим график (рис. 3.3), который указывает на суще­ствование между исследуемыми показателями положительной линей­ной зависимости, что требует вычисления коэффициента корреляции. Для этого проводим расчет данных (см. табл. 3.2). Необходимые суммарные ре­зультаты подставляем в формулу (3.1) и вычисляем коэффициент корреляции:

.

Поскольку r ф = 0,87 > rт = 0,77 при Р = 0,99 и υ = 8, то зависимость между содержанием подвижного марганца и гидролитической кислотностью определя­ется как достоверная положительная.

Более сложно определить достовер­ность зависимости с помощью критерия t(см. формулу 3.4):

Поскольку tф = 5,02 > tт = 3,36 при υ = 8 и Р = 0,99 (см. приложение 4), то зависимость между рассматриваемыми показателями достоверна.           

Рис. 3.3. Зависимость содержания

подвижного марганца (у) от гидро-

­литической кислотности (х)

 

Таким образом, оба метода подтвердили достоверную зависимость между рассматриваемыми признаками.

Расчет коэффициента корреляции для взвешенных рядов. Большие выборки требуют несколько иного расче­та данных. Сначала строится корреляционная решетка, по которой определяется форма связи между признака­ми. Коэффициент корреляции находится по формуле

,                                         (3.5)

где fx,y— частота рядов х и у, ах, ау —отклонения вари­ант рядов х и у от условных средних Мх, Му; fх, fу частоты рядов хну соответственно; σ х, σ у — средние квадратические отклонения рядов х и у соответственно.

Отклонения вариант в рядах устанавливаются следую­щим образом:

, ,

где xi, уi — индивидуальные варианты; сх, сy — классовые интервалы в рядах х и у, Мх, Му —средние арифметиче­ские.

Средние квадратические отклонения вычисляются по формулам:

                 ;                                             (3.6)

                 ;                                             (3.7)

При расчете коэффициента корреляции на микро­калькуляторах или ЭВМ для малых и больших выборок используется формула (3.1).

 

Пример. Следует установить, достоверна ли зависимость меж­ду содержанием физической глины (х, %) и содержанием магния в минеральных почвах (у, %). Количество пар наблюдений NП =70. Корреляционная решетка указывает на линейную зависимость между признаками (табл. 3.3). Для ее построения сопряженные выборки разбиваются на классы (см. § 1.3). Число классов в вариационных рядах по признакам х и у не обязательно должно быть одинаковым. Значения функции у в корреляционной решетке желательно располо­жить по возрастанию снизу вверх, чтобы реально представить форму зависимости и выбрать для расчета соответствующий коэффициент (r или η ). Определяется центральное положение корреляционной ре­шетки, что обычно соответствует максимальной частоте (f = 8); в ряду х против максимальной частоты будет находиться условное среднее Мх=35, в ряду у — среднее My = 2,0 (выделены полужир­ным шрифтом).

Далее вычисляют условные отклонения ах, ау, представляющие собой отклонения середины классов от среднего значения классов, деленные на классовый интервал, т. е. разницу между соседними серединами классов (сх=15—5=10; cy =1—0,5=0,5). Приведем пример для расчета ах и ау: аx = (5-35):10= -3 для первого столбца, ау = (3,5 – 2):0,5 = 3 для первой строки. Затем вычисля­ются произведения условных отклонений на соответствующие им ча­стоты (axfx; ayfy) и записываются в отведенные для них столбцы и строки со своим знаком, например: ayfy = 3·8 = 24; ахfх=(- 3)·б= -18. Квадраты условных отклонений умножаются на соответствую­щие им частоты; ;  и т. д. Полу­ченные данные суммируем по столбцам и строкам и используем для дальнейших расчетов по формулам (3.6, 3.7, 3.5):

; ;

= 0,86

Поскольку r ф = 0,86 > rт = 0,30 при Р = 0,99 и υ = 68, то зависимость содержания общего магния от содержания физической глины в ми­неральной почве положительная, достоверная и достаточно высокая.

Таблица 3.3


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: