Аналіз простої (парної) кореляції

Зв’язок між результативною і однією факторною ознаками називається парною або простою кореляцією. Якщо ж чинників більше – таку залежність називають множинною.

Основні завдання кореляційного аналізу:

1. Описання за допомогою рівняння регресії (рівняння кореляційного зв’язку) зв’язку між досліджуваними ознаками.

2. Оцінка тісноти зв’язку.

Передумови застосування кореляційного аналізу:

Ø наявність причинно-наслідкових зв’язків між досліджуваними ознаками;

Ø достатність варіації (варіація вважається достатньою, якщо коефіцієнт

варіації V>10%);

Ø однорідність сукупності (визначається за τ - критерієм);

Ø числовий вираз досліджуваних ознак.

Графічне зображення статистичних показників дає наочне уявлення про наявність зв’язку між досліджуваними ознаками. При побудові кореляційного поля на осі абсцис відкладають факторну ознаку, на осі ординат - результативну. На поле наносяться точки з координатами, які відповідають значенням ознак окремих одиниць спостереження. За розташуванням точок можна виявити характер залежності. Чим більший розкид точок по кореляційному полю, тим слабкіша залежність. Розкид точок у певному напрямі свідчить про прямий чи обернений зв’язок.

Залежно від форми зв’язку між факторною і результативною ознаками вибирають тип математичного рівняння. Прямолінійну форму зв’язку визначають за рівнянням прямої лінії

y_x₌a₀+ a₁∙х,

де y_x - теоретичні значення результативної ознаки;

a₀, a₁ - параметри рівняння регресії.

Коефіцієнт регресії a₁ показує, на скільки зміниться результативна ознака при зміні факторної ознаки на одиницю.

При прямому зв’язку між корелюючими ознаками коефіцієнт регресії a₁ матиме додатне значення, при зворотному - від’ємне.

Параметри a₀ і a₁рівняння регресії обчислюють способом найменших квадратів. Суть цього способу полягає в знаходженні таких параметрів рівняння зв’язку, при яких сума квадратів відхилень фактичних значень від теоретичних буде мінімальною:

∑(у-у_х)² →min

Спосіб найменших квадратів зводиться до складання і розв’язання системи двох рівнянь з двома невідомими:

n∙a₀ + a₁∙∑x =∑y

a₀∙∑x + a₁∙∑x²=∑ x∙y.

Для оцінки тісноти зв’язку між досліджуваними ознаками застосовують:

Ø Індекс кореляції - універсальний показник, який використовують при будь-яких формах зв’язків (ета):

Індекс кореляції змінюється в межах від 0 до +1.

Ø Коефіцієнт кореляції - використовують тільки при прямолінійних зв’язках:

Коефіцієнт кореляції знаходиться в межах від 0 до +1 при прямому зв’язку і від -1 до 0 - при зворотному зв’язку. Чим ближче коефіцієнт кореляції до ± 1, тим тісніший зв’язок між досліджуваними ознаками, чим ближче коефіцієнт кореляції до 0, тим слабший зв’язок між ознаками.

Ø Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:

Приклад. Побудувати рівняння регресії, що описує залежність урожайності озимої пшениц, ц/гаі (у) від якості грунту, балі (х). Оцінити щільність зв’язку між досліджуваними ознаками.

Таблиця 7.1

Вихідні та розрахункові дані для побудови рівняння регресії

№	у	х	у	х	у х	у	ух
1	33,4	74	1115,56	5476	2471,6	38,2669	182898,4
2	39,6	83	1568,16	6889	3286,8	40,5278	272804,4
3	39,8	83	1584,04	6889	3303,4	40,5278	274182,2
4	36,4	85	1324,96	7225	3094,0	41,0302	262990,0
5	37,6	84	1413,76	7056	3158,4	40,7790	265305,6
6	39,5	83	1560,25	6889	3278,5	40,5278	272115,5
7	40,2	87	1616,04	7569	3497,4	41,5326	304273,8
8	42,4	81	1797,76	6561	3434,4	40,0253	278186,4
9	40,2	75	1616,04	5625	3015,0	38,5181	226125,0
10	40,6	74	1648,36	5476	3004,4	38,2669	222325,6
11	42,2	70	1780,84	4900	2954,0	37,2621	206780,0
12	43,8	81	1918,44	6561	3547,8	40,0253	287371,8
13	43,9	87	1927,21	7569	3819,3	41,5326	332279,1
14	43,1	80	1857,61	6400	3448,0	39,7741	275840,0
15	35,9	69	1288,81	4761	2477,1	37,0109	170919,9
16	40,6	86	1648,36	7396	3491,6	41,2814	300277,6
17	43,0	79	1849,00	6241	3397,0	39,5229	268363,0
18	43,2	80	1866,24	6400	3456,0	39,7741	276480,0
19	33,0	72	1089,00	5184	2376,0	37,7645	171072,0
20	40,0	88	1600,00	7744	3520,0	41,7838	309760,0
21	42,2	83	1780,84	6889	3502,6	40,5278	290715,8
22	33,4	70	1115,56	4900	2338	37,2621	163660,0
23	40,0	89	1600,00	7921	3560	42,0350	316840,0
24	35,8	73	1281,64	5329	2613,4	38,0157	190778,2
25	43,8	81	1918,44	6561	3547,8	40,0253	287371,8
∑	993,6	1997	39766,92	160411	79592,5	993,60	6409716

25a + 1997a = 993,6

1997a + 160411a = 79592,5

a + 79,88 a = 39,744

a + 80,326 a = 39,856

Звідси, a = 19,6779

a = 0,2512

Рівняння регресії має вигляд: у = 19,6779 +0,2512х.

Коефіцієнт регресії a = 0,2512 показує, що із покращенням якості грунту на 1 бал, урожайність озимої пшениці підвищується, в середньому, на 0,2512 ц/га.

Для оцінки тісноти зв’язку між досліджуваними ознаками обчислюємо:

1) індекс кореляції:

0,5

2) Коефіцієнт кореляції:

= = 0,5

3) Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:

d = 0,5 х 100% = 25 %.

Варіація урожайності озимої пшениці на 25% зумовлена варіацією якості грунту, балів.

Суттєвість коефіцієнта кореляції перевіримо за допомогою F- критерію Фішера.

Формулюємо нульову гіпотезу Н : коефіцієнт кореляції є несуттєвим.

F= = 7,57

При рівні ймовірності Р=0,95, число ступенів вільності становить:

На підставі заданого рівня ймовірності та визначеного числа ступенів вільності із таблиць визначаємо критичну точку: F =4,28

Так як фактичне значення F- критерію перевищує критичну точку, то нульова гіпотеза не приймається, тобто коефіцієнт кореляції є суттєвим.

При криволінійній формі зв’язку збільшення факторної ознаки призводить до нерівномірного збільшення (або зменшення) результативної ознаки.

Множинна кореляція

Для дослідження впливу двох і більше факторів на зміну результативного показника застосовують множинну кореляцію.

Припущення про існування лінійного рівняння множинної регресії може бути представлено у вигляді:

y_x_1,_х_2..._х_{n =}a₀+ a₁∙х₁+ a₂∙х₂+ a₃∙х₃+ ··· + a_n∙х_n.

Окремі коефіцієнти рівняння регресії характеризують вплив відповідного фактора на результативний показник, при умові, що інші фактори еліміновані. Вільний член рівняння a₀ не має економічного змісту і не інтерпретується.

Параметри рівняння множинної регресії розраховують за системою нормальних рівнянь:

n∙a₀ + a₁∙∑x₁ + a₂∙∑x₂=∑y;

a₀∙∑x₁+ a₁∙∑x₁²⁺a₂∙∑x₁∙х₂=∑ x₁∙y;

a₀∙∑x₂+ a₁∙∑ x₁∙х₂⁺a₂∙∑x₂²= ∑ x₂∙y.

Показниками тісноти зв’язку при множинній кореляції є парні, часткові, множинний коефіцієнти кореляції, множинний коефіцієнт детермінації і часткові коефіцієнти детермінації.

Парні коефіцієнти кореляції характеризують тісноту зв’язку між двома ознаками без урахування їх взаємодії з іншими ознаками:

Часткові коефіцієнти кореляції характеризують тісноту заявку результативної ознаки з однією факторною ознакою при умові, що інші факторні ознаки еліміновані:

Множинний коефіцієнт кореляції характеризує тісноту зв’язку між всіма досліджуваними в моделі факторами:

або

Множинний коефіцієнт детермінації розраховують за формулою:

D = R²∙100%.

В свою чергу, множинний коефіцієнт детермінації розкладають на часткові коефіцієнти детермінації, які характеризують на скільки відсотків варіація результативної ознаки залежить від варіації кожної із факторних ознак.

D = d₁+ d₂.

Для перевірки суттєвості коефіцієнтів регресії використовують критерій t- Стьюдента. Критерій Стьюдента обчислюють за формулою:

Перевірку істотності множинного коефіцієнта кореляції здійснюють за допомогою F- критерій Фішера:

F = .

Важливими показниками кореляційного аналізу є коефіцієнти еластичності і β - коефіцієнти.

Коефіцієнти еластичності показують, на скільки відсотків змінюється результативна ознака при зміні факторної ознаки на 1%. Обчислюють їх за формулою:

β - коефіцієнти показують, на скільки середніх квадратичних відхилень змінюється результативна ознака при зміні відповідного фактора на одне середнє квадратичне відхилення. Їх визначають за формулою: