Задание 6. Статистическое изучение связей

На основе соответствующих вашему варианту данных:

1. Сформулировать задачу изучения взаимосвязи признаков, обосновать выбор признака-фактора и признака-результата.

2. Рассчитать средние значения и показатели вариации (среднеквадратическое отклонение и коэффициент вариации) для признака-фактора и признака-результата.

3. Построить поле корреляции.

4. Провести аналитическую группировку по признаку фактору, выделив 3-4 группы. Для каждой группы рассчитать среднее значение признака-результата.

5. Нанести на поле корреляции эмпирическую линию регрессии, построенную по групповым средним значениям признака-фактора и признака-результата.

6. Сформулировать гипотезу о наличии связи, её форме, направлении и тесноте.

7. Рассчитать показатели силы связи для каждой группы. Сделать выводы об изменении интенсивности влияния фактора на результат. В случае линейной (или близкой к линейной) связи рассчитать средний показатель силы связи для совокупности в целом.

8. Рассчитать внутригрупповые дисперсии, среднюю из внутригрупповых дисперсий, межгрупповую дисперсию, общую дисперсию. Проверить правило сложения дисперсий.

9. Рассчитать показатели тесноты связи: эмпирическое корреляционное отношение и коэффициент детерминации. Сделать выводы о роли изучаемого фактора в общем комплексе условий и причин, влияющих на результат.

10. Проанализировать зависимость фактора и результата методом парной регрессии и корреляции. Построить линейное уравнение регрессии. Дать интерпретацию параметров уравнения.

11. Оценить тесноту связи с помощью парного линейного коэффициента корреляции и коэффициента детерминации. Интерпретировать их значения.

12. Проверить статистическую значимость уравнения с помощью F-критерия.

13. Сравнить показатели силы и тесноты связи, рассчитанные по результатам аналитической группировки и методом регрессии и корреляции.

Сделать вывод о линейном или нелинейном характере связи.

По организациям одного вида деятельности изучается связь между затратами на рекламу и суммой полученной прибыли.

№ п/п	Затраты на рекламу, млн. руб.	Прибыль, млн. руб.

Решение:

Затраты на рекламу - признак-фактор, прибыль - признак-результат.

Средние значения и показатели вариации (среднеквадратическое отклонение и коэффициент вариации) для признака-фактора и признака-результата.:

Проранжируем 1 ряд. Для этого сортируем его значения по возрастанию.

Таблица для расчета показателей.

x	\|x - x_ср\|	(x - x_ср)²
	13,4	179,56
	12,4	153,76
	11,4	129,96
	10,4	108,16
	9,4	88,36
	8,4	70,56
	6,4	40,96
	4,4	19,36
	3,4	11,56
	2,4	5,76
	0,4	0,16
	1,6	2,56
	3,6	12,96
	5,6	31,36
	7,6	57,76
	9,6	92,16
	11,6	134,56
	13,6	184,96
	13,6	184,96
	15,6	243,36
	164,8	1752,8

Для оценки ряда распределения найдем следующие показатели:

Показатели центра распределения.

Простая средняя арифметическая

Значение ряда 42 встречается всех больше (2 раз). Следовательно, мода равна x = 42

Медиана соответствует варианту, стоящему в середине ранжированного ряда.

Находим середину ранжированного ряда: h = ⁿ/₂ = ²⁰/₂ = 10. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (26 + 28)/2 = 27

Размах вариации R = X_max - X_min

R = 44 - 15 = 29

Среднее линейное отклонение

Каждое значение ряда отличается от другого в среднем на 8.24

Дисперсия

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 28.4 в среднем на 9.36

Коэффициент вариации

Поскольку v>30%,но v<70%, то вариация умеренная.

Проранжируем 2 ряд. Для этого сортируем его значения по возрастанию.

Таблица для расчета показателей.

x	\|x - x_ср\|	(x - x_ср)²
	26,95	726,3
	23,95	573,6
	21,95	481,8
	17,95	322,2
	15,95	254,4
	13,95	194,6
	11,95	142,8
	9,95
	3,95	15,6
	1,95	3,8
	2,05	4,2
	4,05	16,4
	6,05	36,6
	8,05	64,8
	9,05	81,9
	12,05	145,2
	14,05	197,4
	23,05	531,3
	29,05	843,9
	41,05	1685,1
		6420,95

Для оценки ряда распределения найдем следующие показатели:

Показатели центра распределения.

Простая средняя арифметическая

Мода отсутствует (все значения ряда индивидуальные).

Медиана.

Показатели вариации.

Абсолютные показатели вариации R = X_max - X_min

R = 97 - 29 = 68

Среднее линейное отклонение

Каждое значение ряда отличается от другого в среднем на 14.85

Дисперсия

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 55.95 в среднем на 17.92

Коэффициент вариации

Поскольку v>30%,но v<70%, то вариация умеренная.

Поле корреляции.

Данные группируются по признаку-фактору. Затем по каждой группе рассчитывается среднее значение. Задача состоит в том, чтобы увидеть, есть связь между признаками или нет; прямая связь или обратная; линейная или нелинейная.

Тогда ширина интервала составит:

Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.

	15 - 22,25
	15 - 22,25
	15 - 22,25
	15 - 22,25
	15 - 22,25
	15 - 22,25
	15 - 22,25
	22,25 - 29,5
	22,25 - 29,5
	22,25 - 29,5
	22,25 - 29,5
	29,5 - 36,75
	29,5 - 36,75
	29,5 - 36,75
	29,5 - 36,75
	36,75 - 44
	36,75 - 44
	36,75 - 44
	36,75 - 44
	36,75 - 44

Аналитическая группировка.

Группы	№	Кол-во, n_j	∑X	Xcp = ∑X_j / n_j	∑Y	Ycp = ∑Y_j / n_j
15 - 22,25	1,2,3,4,5,6,7			18,14
22,25 - 29,5	8,9,10,11			25,75
29,5 - 36,75	12,13,14,15					64,5
36,75 - 44	16,17,18,19,20			41,2
Итого	-			-		-

По аналитической группировке измеряют связь при помощи эмпирического корреляционного отношения. Оно основано на правиле разложения дисперсии: общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.

Находим средние значения каждой группы.

млн. руб.

Общее средние значение для всей совокупности:

млн. руб.

Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной:

Расчет для группы: 15 - 22.25 (1,2,3,4,5,6,7)

y_j	(y_j - y_ср)²	Результат
	(29 - 37)²
	(32 - 37)²
	(38 - 37)²
	(42 - 37)²
	(44 - 37)²
	(40 - 37)²
	(34 - 37)²
Итого

Определим групповую (частную) дисперсию для 1-ой группы:

Расчет для группы: 22.25 - 29.5 (8,9,10,11)

y_j	(y_j - y_ср)²	Результат
	(54 - 53)²
	(46 - 53)²
	(52 - 53)²
	(60 - 53)²
Итого

Определим групповую (частную) дисперсию для 2-ой группы:

Расчет для группы: 29.5 - 36.75 (12,13,14,15)

y_j	(y_j - y_ср)²	Результат
	(58 - 64.5)²	42.25
	(62 - 64.5)²	6.25
	(70 - 64.5)²	30.25
	(68 - 64.5)²	12.25
Итого

Определим групповую (частную) дисперсию для 3-ой группы:

Расчет для группы: 36.75 - 44 (16,17,18,19,20)

y_j	(y_j - y_ср)²	Результат
	(79 - 78)²
	(64 - 78)²
	(65 - 78)²
	(97 - 78)²
	(85 - 78)²
Итого

Определим групповую (частную) дисперсию для 4-ой группы:

Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:

Средняя из частных дисперсий:

млн. руб.

Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной

млн. руб.

Определяем общую дисперсию по всей совокупности, используя правило сложения дисперсий:

σ² = 57.45 + 263.6 = 321.05 млн. руб.

Проверим этот вывод путем расчета общей дисперсии обычным способом:

y_i	(y_i - y_ср)²	Результат
	(29 - 55,95)²	726,3
	(32 - 55,95)²	573,6
	(38 - 55,95)²	322,2
	(42 - 55,95)²	194,6
	(44 - 55,95)²	142,8
	(40 - 55,95)²	254,4
	(34 - 55,95)²	481,8
	(54 - 55,95)²	3,8
	(46 - 55,95)²
	(52 - 55,95)²	15,6
	(60 - 55,95)²	16,4
	(58 - 55,95)²	4,2
	(62 - 55,95)²	36,6
	(70 - 55,95)²	197,4
	(68 - 55,95)²	145,2
	(79 - 55,95)²	531,3
	(64 - 55,95)²	64,8
	(65 - 55,95)²	81,9
	(97 - 55,95)²	1685,1
	(85 - 55,95)²	843,9
Итого		6420,95

млн. руб.

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:

Определяем эмпирическое корреляционное отношение:

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < η < 0.3: слабая;

0.3 < η < 0.5: умеренная;

0.5 < η < 0.7: заметная;

0.7 < η < 0.9: высокая;

0.9 < η < 1: весьма высокая;

В нашем примере связь между признаком Y фактором X весьма высокая

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a

Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e_i – наблюдаемые значения (оценки) ошибок ε_i, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

Для оценки параметров α и β - используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

a•n + b∑x = ∑y

a∑x + b∑x² = ∑y•x

Для наших данных система уравнений имеет вид

20a + 568 b = 1119

568 a + 17884 b = 34869

Домножим уравнение (1) системы на (-28.4), получим систему, которую решим методом алгебраического сложения.

-568a -16131.2 b = -31779.6

568 a + 17884 b = 34869

Получаем:

1752.8 b = 3089.4

Откуда b = 1.7626

Теперь найдем коэффициент «a» из уравнения (1):

20a + 568 b = 1119

20a + 568 • 1.7626 = 1119

20a = 117.87

a = 5.8935

Получаем эмпирические коэффициенты регрессии: b = 1.7626, a = 5.8935

Уравнение регрессии (эмпирическое уравнение регрессии):

y = 1.7626 x + 5.8935

Для расчета параметров регрессии построим расчетную таблицу

x	y	x²	y²	x • y

Параметры уравнения регрессии.

Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

Коэффициент корреляции

Ковариация.

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < r_xy < 0.3: слабая;

0.3 < r_xy < 0.5: умеренная;

0.5 < r_xy < 0.7: заметная;

0.7 < r_xy < 0.9: высокая;

0.9 < r_xy < 1: весьма высокая;

В нашем примере связь между признаком Y фактором X весьма высокая и прямая.

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 1.76 x + 5.89

Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

Коэффициент регрессии b = 1.76 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 1.76.

Коэффициент a = 5.89 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.

Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.

Коэффициент детерминации.

R²= 0.921² = 0.848

т.е. в 84.8 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 15.2 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

Для оценки качества параметров регрессии построим расчетную таблицу

x	y	y(x)	(y_i-y_cp)²	(y-y(x))²
		32,33	726,3	11,1
		35,86	322,2	4,59
		49,96		15,66
		76,4	64,8	153,65
		62,3	36,6	0,0871
		65,82	197,4	17,47
		55,24	16,4	22,61
		37,62	194,6	19,19
		51,72	15,6	0,0785
		41,14	254,4	1,31
		39,38	142,8	21,33
		34,09	573,6	4,39
		69,35	145,2	1,81
		79,92	81,9	222,63
		48,19	3,8	33,7
		58,77	4,2	0,59
		72,87	531,3	37,57
		83,45	843,9	2,42
		44,67	481,8	113,84
		79,92	1685,1	291,7
			6420,95	975,72

Оценка параметров уравнения регрессии.

Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

S² = 54.207 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

S = 7.36 - стандартная ошибка оценки (стандартная ошибка регрессии).

Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

2) F-статистика. Критерий Фишера.

Табличное значение критерия со степенями свободы k₁=1 и k₂=18, F_табл = 4.41

Поскольку фактическое значение F > F_табл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).