На основе соответствующих вашему варианту данных:
1. Сформулировать задачу изучения взаимосвязи признаков, обосновать выбор признака-фактора и признака-результата.
2. Рассчитать средние значения и показатели вариации (среднеквадратическое отклонение и коэффициент вариации) для признака-фактора и признака-результата.
3. Построить поле корреляции.
4. Провести аналитическую группировку по признаку фактору, выделив 3-4 группы. Для каждой группы рассчитать среднее значение признака-результата.
5. Нанести на поле корреляции эмпирическую линию регрессии, построенную по групповым средним значениям признака-фактора и признака-результата.
6. Сформулировать гипотезу о наличии связи, её форме, направлении и тесноте.
7. Рассчитать показатели силы связи для каждой группы. Сделать выводы об изменении интенсивности влияния фактора на результат. В случае линейной (или близкой к линейной) связи рассчитать средний показатель силы связи для совокупности в целом.
8. Рассчитать внутригрупповые дисперсии, среднюю из внутригрупповых дисперсий, межгрупповую дисперсию, общую дисперсию. Проверить правило сложения дисперсий.
|
|
9. Рассчитать показатели тесноты связи: эмпирическое корреляционное отношение и коэффициент детерминации. Сделать выводы о роли изучаемого фактора в общем комплексе условий и причин, влияющих на результат.
10. Проанализировать зависимость фактора и результата методом парной регрессии и корреляции. Построить линейное уравнение регрессии. Дать интерпретацию параметров уравнения.
11. Оценить тесноту связи с помощью парного линейного коэффициента корреляции и коэффициента детерминации. Интерпретировать их значения.
12. Проверить статистическую значимость уравнения с помощью F-критерия.
13. Сравнить показатели силы и тесноты связи, рассчитанные по результатам аналитической группировки и методом регрессии и корреляции.
Сделать вывод о линейном или нелинейном характере связи.
По организациям одного вида деятельности изучается связь между затратами на рекламу и суммой полученной прибыли.
№ п/п | Затраты на рекламу, млн. руб. | Прибыль, млн. руб. |
Решение:
Затраты на рекламу - признак-фактор, прибыль - признак-результат.
Средние значения и показатели вариации (среднеквадратическое отклонение и коэффициент вариации) для признака-фактора и признака-результата.:
|
|
Проранжируем 1 ряд. Для этого сортируем его значения по возрастанию.
Таблица для расчета показателей.
x | |x - xср| | (x - xср)2 |
13,4 | 179,56 | |
12,4 | 153,76 | |
11,4 | 129,96 | |
10,4 | 108,16 | |
9,4 | 88,36 | |
8,4 | 70,56 | |
6,4 | 40,96 | |
4,4 | 19,36 | |
3,4 | 11,56 | |
2,4 | 5,76 | |
0,4 | 0,16 | |
1,6 | 2,56 | |
3,6 | 12,96 | |
5,6 | 31,36 | |
7,6 | 57,76 | |
9,6 | 92,16 | |
11,6 | 134,56 | |
13,6 | 184,96 | |
13,6 | 184,96 | |
15,6 | 243,36 | |
164,8 | 1752,8 |
Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения.
Простая средняя арифметическая
Значение ряда 42 встречается всех больше (2 раз). Следовательно, мода равна x = 42
Медиана соответствует варианту, стоящему в середине ранжированного ряда.
Находим середину ранжированного ряда: h = n/2 = 20/2 = 10. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (26 + 28)/2 = 27
Размах вариации R = Xmax - Xmin
R = 44 - 15 = 29
Среднее линейное отклонение
Каждое значение ряда отличается от другого в среднем на 8.24
Дисперсия
Среднее квадратическое отклонение (средняя ошибка выборки).
Каждое значение ряда отличается от среднего значения 28.4 в среднем на 9.36
Коэффициент вариации
Поскольку v>30%,но v<70%, то вариация умеренная.
Проранжируем 2 ряд. Для этого сортируем его значения по возрастанию.
Таблица для расчета показателей.
x | |x - xср| | (x - xср)2 |
26,95 | 726,3 | |
23,95 | 573,6 | |
21,95 | 481,8 | |
17,95 | 322,2 | |
15,95 | 254,4 | |
13,95 | 194,6 | |
11,95 | 142,8 | |
9,95 | ||
3,95 | 15,6 | |
1,95 | 3,8 | |
2,05 | 4,2 | |
4,05 | 16,4 | |
6,05 | 36,6 | |
8,05 | 64,8 | |
9,05 | 81,9 | |
12,05 | 145,2 | |
14,05 | 197,4 | |
23,05 | 531,3 | |
29,05 | 843,9 | |
41,05 | 1685,1 | |
6420,95 |
Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения.
Простая средняя арифметическая
Мода отсутствует (все значения ряда индивидуальные).
Медиана.
Находим середину ранжированного ряда: h = n/2 = 20/2 = 10. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (54 + 58)/2 = 56
Показатели вариации.
Абсолютные показатели вариации R = Xmax - Xmin
R = 97 - 29 = 68
Среднее линейное отклонение
Каждое значение ряда отличается от другого в среднем на 14.85
Дисперсия
Среднее квадратическое отклонение (средняя ошибка выборки).
Каждое значение ряда отличается от среднего значения 55.95 в среднем на 17.92
Коэффициент вариации
Поскольку v>30%,но v<70%, то вариация умеренная.
Поле корреляции.
Данные группируются по признаку-фактору. Затем по каждой группе рассчитывается среднее значение. Задача состоит в том, чтобы увидеть, есть связь между признаками или нет; прямая связь или обратная; линейная или нелинейная.
Тогда ширина интервала составит:
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.
15 - 22,25 | ||
15 - 22,25 | ||
15 - 22,25 | ||
15 - 22,25 | ||
15 - 22,25 | ||
15 - 22,25 | ||
15 - 22,25 | ||
22,25 - 29,5 | ||
22,25 - 29,5 | ||
22,25 - 29,5 | ||
22,25 - 29,5 | ||
29,5 - 36,75 | ||
29,5 - 36,75 | ||
29,5 - 36,75 | ||
29,5 - 36,75 | ||
36,75 - 44 | ||
36,75 - 44 | ||
36,75 - 44 | ||
36,75 - 44 | ||
36,75 - 44 |
Аналитическая группировка.
Группы | № | Кол-во, nj | ∑X | Xcp = ∑Xj / nj | ∑Y | Ycp = ∑Yj / nj |
15 - 22,25 | 1,2,3,4,5,6,7 | 18,14 | ||||
22,25 - 29,5 | 8,9,10,11 | 25,75 | ||||
29,5 - 36,75 | 12,13,14,15 | 64,5 | ||||
36,75 - 44 | 16,17,18,19,20 | 41,2 | ||||
Итого | - | - | - |
По аналитической группировке измеряют связь при помощи эмпирического корреляционного отношения. Оно основано на правиле разложения дисперсии: общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.
|
|
Находим средние значения каждой группы.
млн. руб.
млн. руб.
млн. руб.
млн. руб.
Общее средние значение для всей совокупности:
млн. руб.
Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной:
Расчет для группы: 15 - 22.25 (1,2,3,4,5,6,7)
yj | (yj - yср)2 | Результат |
(29 - 37)2 | ||
(32 - 37)2 | ||
(38 - 37)2 | ||
(42 - 37)2 | ||
(44 - 37)2 | ||
(40 - 37)2 | ||
(34 - 37)2 | ||
Итого |
Определим групповую (частную) дисперсию для 1-ой группы:
Расчет для группы: 22.25 - 29.5 (8,9,10,11)
yj | (yj - yср)2 | Результат |
(54 - 53)2 | ||
(46 - 53)2 | ||
(52 - 53)2 | ||
(60 - 53)2 | ||
Итого |
Определим групповую (частную) дисперсию для 2-ой группы:
Расчет для группы: 29.5 - 36.75 (12,13,14,15)
yj | (yj - yср)2 | Результат |
(58 - 64.5)2 | 42.25 | |
(62 - 64.5)2 | 6.25 | |
(70 - 64.5)2 | 30.25 | |
(68 - 64.5)2 | 12.25 | |
Итого |
Определим групповую (частную) дисперсию для 3-ой группы:
Расчет для группы: 36.75 - 44 (16,17,18,19,20)
yj | (yj - yср)2 | Результат |
(79 - 78)2 | ||
(64 - 78)2 | ||
(65 - 78)2 | ||
(97 - 78)2 | ||
(85 - 78)2 | ||
Итого |
Определим групповую (частную) дисперсию для 4-ой группы:
Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:
Средняя из частных дисперсий:
млн. руб.
Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной
млн. руб.
Определяем общую дисперсию по всей совокупности, используя правило сложения дисперсий:
σ2 = 57.45 + 263.6 = 321.05 млн. руб.
Проверим этот вывод путем расчета общей дисперсии обычным способом:
yi | (yi - yср)2 | Результат |
(29 - 55,95)2 | 726,3 | |
(32 - 55,95)2 | 573,6 | |
(38 - 55,95)2 | 322,2 | |
(42 - 55,95)2 | 194,6 | |
(44 - 55,95)2 | 142,8 | |
(40 - 55,95)2 | 254,4 | |
(34 - 55,95)2 | 481,8 | |
(54 - 55,95)2 | 3,8 | |
(46 - 55,95)2 | ||
(52 - 55,95)2 | 15,6 | |
(60 - 55,95)2 | 16,4 | |
(58 - 55,95)2 | 4,2 | |
(62 - 55,95)2 | 36,6 | |
(70 - 55,95)2 | 197,4 | |
(68 - 55,95)2 | 145,2 | |
(79 - 55,95)2 | 531,3 | |
(64 - 55,95)2 | 64,8 | |
(65 - 55,95)2 | 81,9 | |
(97 - 55,95)2 | 1685,1 | |
(85 - 55,95)2 | 843,9 | |
Итого | 6420,95 |
млн. руб.
|
|
Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:
Определяем эмпирическое корреляционное отношение:
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X весьма высокая
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных система уравнений имеет вид
20a + 568 b = 1119
568 a + 17884 b = 34869
Домножим уравнение (1) системы на (-28.4), получим систему, которую решим методом алгебраического сложения.
-568a -16131.2 b = -31779.6
568 a + 17884 b = 34869
Получаем:
1752.8 b = 3089.4
Откуда b = 1.7626
Теперь найдем коэффициент «a» из уравнения (1):
20a + 568 b = 1119
20a + 568 • 1.7626 = 1119
20a = 117.87
a = 5.8935
Получаем эмпирические коэффициенты регрессии: b = 1.7626, a = 5.8935
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 1.7626 x + 5.8935
Для расчета параметров регрессии построим расчетную таблицу
x | y | x2 | y2 | x • y |
Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
Коэффициент корреляции
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X весьма высокая и прямая.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 1.76 x + 5.89
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент регрессии b = 1.76 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 1.76.
Коэффициент a = 5.89 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
Коэффициент детерминации.
R2= 0.9212 = 0.848
т.е. в 84.8 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 15.2 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки качества параметров регрессии построим расчетную таблицу
x | y | y(x) | (yi-ycp)2 | (y-y(x))2 |
32,33 | 726,3 | 11,1 | ||
35,86 | 322,2 | 4,59 | ||
49,96 | 15,66 | |||
76,4 | 64,8 | 153,65 | ||
62,3 | 36,6 | 0,0871 | ||
65,82 | 197,4 | 17,47 | ||
55,24 | 16,4 | 22,61 | ||
37,62 | 194,6 | 19,19 | ||
51,72 | 15,6 | 0,0785 | ||
41,14 | 254,4 | 1,31 | ||
39,38 | 142,8 | 21,33 | ||
34,09 | 573,6 | 4,39 | ||
69,35 | 145,2 | 1,81 | ||
79,92 | 81,9 | 222,63 | ||
48,19 | 3,8 | 33,7 | ||
58,77 | 4,2 | 0,59 | ||
72,87 | 531,3 | 37,57 | ||
83,45 | 843,9 | 2,42 | ||
44,67 | 481,8 | 113,84 | ||
79,92 | 1685,1 | 291,7 | ||
6420,95 | 975,72 |
Оценка параметров уравнения регрессии.
Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2 = 54.207 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S = 7.36 - стандартная ошибка оценки (стандартная ошибка регрессии).
Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
2) F-статистика. Критерий Фишера.
Табличное значение критерия со степенями свободы k1=1 и k2=18, Fтабл = 4.41
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).