Зв’язок між результативною і однією факторною ознаками називається парною або простою кореляцією. Якщо ж чинників більше – таку залежність називають множинною.
Основні завдання кореляційного аналізу:
1. Описання за допомогою рівняння регресії (рівняння кореляційного зв’язку) зв’язку між досліджуваними ознаками.
2. Оцінка тісноти зв’язку.
Передумови застосування кореляційного аналізу:
Ø наявність причинно-наслідкових зв’язків між досліджуваними ознаками;
Ø достатність варіації (варіація вважається достатньою, якщо коефіцієнт
варіації V>10%);
Ø однорідність сукупності (визначається за τ - критерієм);
Ø числовий вираз досліджуваних ознак.
Графічне зображення статистичних показників дає наочне уявлення про наявність зв’язку між досліджуваними ознаками. При побудові кореляційного поля на осі абсцис відкладають факторну ознаку, на осі ординат - результативну. На поле наносяться точки з координатами, які відповідають значенням ознак окремих одиниць спостереження. За розташуванням точок можна виявити характер залежності. Чим більший розкид точок по кореляційному полю, тим слабкіша залежність. Розкид точок у певному напрямі свідчить про прямий чи обернений зв’язок.
|
|
Залежно від форми зв’язку між факторною і результативною ознаками вибирають тип математичного рівняння. Прямолінійну форму зв’язку визначають за рівнянням прямої лінії
yx = a0 + a1∙х,
де yx - теоретичні значення результативної ознаки;
a0, a1 - параметри рівняння регресії.
Коефіцієнт регресії a1 показує, на скільки зміниться результативна ознака при зміні факторної ознаки на одиницю.
При прямому зв’язку між корелюючими ознаками коефіцієнт регресії a1 матиме додатне значення, при зворотному - від’ємне.
Параметри a0 і a1 рівняння регресії обчислюють способом найменших квадратів. Суть цього способу полягає в знаходженні таких параметрів рівняння зв’язку, при яких сума квадратів відхилень фактичних значень від теоретичних буде мінімальною:
∑(у-ух)2 →min
Спосіб найменших квадратів зводиться до складання і розв’язання системи двох рівнянь з двома невідомими:
n∙a0 + a1∙∑x =∑y
a0∙∑x + a1∙∑x2= ∑ x∙y.
Для оцінки тісноти зв’язку між досліджуваними ознаками застосовують:
Ø Індекс кореляції - універсальний показник, який використовують при будь-яких формах зв’язків (ета):
Індекс кореляції змінюється в межах від 0 до +1.
Ø Коефіцієнт кореляції - використовують тільки при прямолінійних зв’язках:
Коефіцієнт кореляції знаходиться в межах від 0 до +1 при прямому зв’язку і від -1 до 0 - при зворотному зв’язку. Чим ближче коефіцієнт кореляції до ± 1, тим тісніший зв’язок між досліджуваними ознаками, чим ближче коефіцієнт кореляції до 0, тим слабший зв’язок між ознаками.
|
|
Ø Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:
d
Приклад. Побудувати рівняння регресії, що описує залежність урожайності озимої пшениц, ц/гаі (у) від якості грунту, балі (х). Оцінити щільність зв’язку між досліджуваними ознаками.
Таблиця 7.1
Вихідні та розрахункові дані для побудови рівняння регресії
№ | у | х | у | х | у х | у | ух |
1 | 33,4 | 74 | 1115,56 | 5476 | 2471,6 | 38,2669 | 182898,4 |
2 | 39,6 | 83 | 1568,16 | 6889 | 3286,8 | 40,5278 | 272804,4 |
3 | 39,8 | 83 | 1584,04 | 6889 | 3303,4 | 40,5278 | 274182,2 |
4 | 36,4 | 85 | 1324,96 | 7225 | 3094,0 | 41,0302 | 262990,0 |
5 | 37,6 | 84 | 1413,76 | 7056 | 3158,4 | 40,7790 | 265305,6 |
6 | 39,5 | 83 | 1560,25 | 6889 | 3278,5 | 40,5278 | 272115,5 |
7 | 40,2 | 87 | 1616,04 | 7569 | 3497,4 | 41,5326 | 304273,8 |
8 | 42,4 | 81 | 1797,76 | 6561 | 3434,4 | 40,0253 | 278186,4 |
9 | 40,2 | 75 | 1616,04 | 5625 | 3015,0 | 38,5181 | 226125,0 |
10 | 40,6 | 74 | 1648,36 | 5476 | 3004,4 | 38,2669 | 222325,6 |
11 | 42,2 | 70 | 1780,84 | 4900 | 2954,0 | 37,2621 | 206780,0 |
12 | 43,8 | 81 | 1918,44 | 6561 | 3547,8 | 40,0253 | 287371,8 |
13 | 43,9 | 87 | 1927,21 | 7569 | 3819,3 | 41,5326 | 332279,1 |
14 | 43,1 | 80 | 1857,61 | 6400 | 3448,0 | 39,7741 | 275840,0 |
15 | 35,9 | 69 | 1288,81 | 4761 | 2477,1 | 37,0109 | 170919,9 |
16 | 40,6 | 86 | 1648,36 | 7396 | 3491,6 | 41,2814 | 300277,6 |
17 | 43,0 | 79 | 1849,00 | 6241 | 3397,0 | 39,5229 | 268363,0 |
18 | 43,2 | 80 | 1866,24 | 6400 | 3456,0 | 39,7741 | 276480,0 |
19 | 33,0 | 72 | 1089,00 | 5184 | 2376,0 | 37,7645 | 171072,0 |
20 | 40,0 | 88 | 1600,00 | 7744 | 3520,0 | 41,7838 | 309760,0 |
21 | 42,2 | 83 | 1780,84 | 6889 | 3502,6 | 40,5278 | 290715,8 |
22 | 33,4 | 70 | 1115,56 | 4900 | 2338 | 37,2621 | 163660,0 |
23 | 40,0 | 89 | 1600,00 | 7921 | 3560 | 42,0350 | 316840,0 |
24 | 35,8 | 73 | 1281,64 | 5329 | 2613,4 | 38,0157 | 190778,2 |
25 | 43,8 | 81 | 1918,44 | 6561 | 3547,8 | 40,0253 | 287371,8 |
∑ | 993,6 | 1997 | 39766,92 | 160411 | 79592,5 | 993,60 | 6409716 |
25a + 1997a = 993,6
1997a + 160411a = 79592,5
a + 79,88 a = 39,744
a + 80,326 a = 39,856
Звідси, a = 19,6779
a = 0,2512
Рівняння регресії має вигляд: у = 19,6779 +0,2512х.
Коефіцієнт регресії a = 0,2512 показує, що із покращенням якості грунту на 1 бал, урожайність озимої пшениці підвищується, в середньому, на 0,2512 ц/га.
Для оцінки тісноти зв’язку між досліджуваними ознаками обчислюємо:
1) індекс кореляції:
0,5
2) Коефіцієнт кореляції:
= = 0,5
3) Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:
d
d = 0,5 х 100% = 25 %.
Варіація урожайності озимої пшениці на 25% зумовлена варіацією якості грунту, балів.
Суттєвість коефіцієнта кореляції перевіримо за допомогою F- критерію Фішера.
Формулюємо нульову гіпотезу Н : коефіцієнт кореляції є несуттєвим.
F=
F= = 7,57
При рівні ймовірності Р=0,95, число ступенів вільності становить:
На підставі заданого рівня ймовірності та визначеного числа ступенів вільності із таблиць визначаємо критичну точку: F =4,28
Так як фактичне значення F- критерію перевищує критичну точку, то нульова гіпотеза не приймається, тобто коефіцієнт кореляції є суттєвим.
При криволінійній формі зв’язку збільшення факторної ознаки призводить до нерівномірного збільшення (або зменшення) результативної ознаки.
Множинна кореляція
Для дослідження впливу двох і більше факторів на зміну результативного показника застосовують множинну кореляцію.
Припущення про існування лінійного рівняння множинної регресії може бути представлено у вигляді:
yx1, х2...хn = a0 + a1∙х1+ a2∙х2+ a3∙х3 + ··· + an∙хn.
Окремі коефіцієнти рівняння регресії характеризують вплив відповідного фактора на результативний показник, при умові, що інші фактори еліміновані. Вільний член рівняння a0 не має економічного змісту і не інтерпретується.
Параметри рівняння множинної регресії розраховують за системою нормальних рівнянь:
n∙a0 + a1∙∑x1 + a2∙∑x2 =∑y;
a0∙∑x1 + a1∙∑x12 + a2∙∑x1∙х2= ∑ x1∙y;
a0∙∑x2 + a1∙∑ x1∙х2 + a2∙∑x22= ∑ x2∙y.
|
|
Показниками тісноти зв’язку при множинній кореляції є парні, часткові, множинний коефіцієнти кореляції, множинний коефіцієнт детермінації і часткові коефіцієнти детермінації.
Парні коефіцієнти кореляції характеризують тісноту зв’язку між двома ознаками без урахування їх взаємодії з іншими ознаками:
Часткові коефіцієнти кореляції характеризують тісноту заявку результативної ознаки з однією факторною ознакою при умові, що інші факторні ознаки еліміновані:
Множинний коефіцієнт кореляції характеризує тісноту зв’язку між всіма досліджуваними в моделі факторами:
або
Множинний коефіцієнт детермінації розраховують за формулою:
D = R2 ∙100%.
В свою чергу, множинний коефіцієнт детермінації розкладають на часткові коефіцієнти детермінації, які характеризують на скільки відсотків варіація результативної ознаки залежить від варіації кожної із факторних ознак.
D = d1 + d2.
Для перевірки суттєвості коефіцієнтів регресії використовують критерій t- Стьюдента. Критерій Стьюдента обчислюють за формулою:
Перевірку істотності множинного коефіцієнта кореляції здійснюють за допомогою F- критерій Фішера:
F = .
Важливими показниками кореляційного аналізу є коефіцієнти еластичності і β - коефіцієнти.
Коефіцієнти еластичності показують, на скільки відсотків змінюється результативна ознака при зміні факторної ознаки на 1%. Обчислюють їх за формулою:
β - коефіцієнти показують, на скільки середніх квадратичних відхилень змінюється результативна ознака при зміні відповідного фактора на одне середнє квадратичне відхилення. Їх визначають за формулою: