Лабораторный практикум по парной регрессии и корреляции

1 2 3 4 5 6 7

Оглавление

Лабораторный практикум по парной регрессии и корреляции.. 1

РЕШЕНИЕ ЗАДАЧИ.. 5

ТЕМА 2 Отбор факторов при построении множественной регрессии.. 13

Вопрос 3: «Мультиколлинеарность». 19

РЕШЕНИЕ ТИПОВОЙ ЗАДАЧИ.. 21

Решение задач с помощью MS Excel. 28

ТЕМА 3 Регрессионные модели с переменной структурой.. 33

Вопрос 1. «Фиктивные переменные во множественной регрессии». 33

Вопрос 2. Предпосылки метода наименьших квадратов. 38

Вопрос 3. «Гетероскедатистичность». 41

РАЗДЕЛ 3. 42

Лекция 6: «ХАРАКТЕРИСТИКИ ВРЕМЕННЫХ РЯДОВ». 42

Вопрос 1: «ОСНОВНЫЕ ЭЛЕМЕНТЫ ВРЕМЕННОГО РЯДА». 42

Вопрос 2: «АВТОКОРРЕЛЯЦИЯ УРОВНЕЙ ВРЕМЕННОГО РЯДА И ВЫЯВЛЕНИЕ ЕГО СТРУКТУРЫ». 43

Вопрос 3: «Моделирование тенденции временного ряда». 49

Вопрос 4: «Моделирование сезонных и циклических колебаний». 49

Вопрос 5: «Моделирование тенденции временного ряда при наличии структурных изменений». 53

Лабораторный практикум по парной регрессии и корреляции

Парная (простая) линейная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной рассматривается как функция одной независимой (объясняющей) переменной x, т.е. это модель вида:

где: y – зависимая переменная (результативный признак);

х – независимая, объясняющая переменная (признак-фактор)

Так же y называют результативным признаком, а x признаком-фактором. Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости.

Практически в каждом отдельном случае величина y складывается из двух слагаемых:

где y – фактическое значение результативного признака; – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. Случайная величина e называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

Различают линейные и нелинейные регрессии.

Линейная регрессия: y=a+b*x+ε.

Нелинейные регрессии делятся на два класса: регрессия, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессия, нелинейные по оцениваемым параметрам.

Регрессии, нелинейные по объясняющим переменным:

Ø Полиномы разных степеней y=a+b₁*x+b₂*x²+b₃*x³+ε

Ø Равносторонняя гипербола

Регрессии, нелинейные по оцениваемым параметрам:

Степенная y=a*x^b*ε

Показательная y=a*b^x*ε

Экспоненциальная y=e^a⁺^b^*^x*ε

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квардатов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Ковариация – числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений этих случайных величин от их математических ожиданий. Дисперсия – характеристика случайной величины, определяемая как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания. Математическое ожидание – сумма произведений значений случайной величины на соответствующие вероятности

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции r_xy для линейной регрессии (

И индекс корреляции p_xy - для нелинейной регрессии

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

Допустимый предел значений - не более 8-10%.

Средний коэффициент эластичности показывает, на сколько процентов в средней по совокупности изменится результат у от свой средней величины при изменении фактора х на 1% от своего среднего значения:

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера, которому предшествует дисперсионный анализ.

Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения раскладывается на две части – «объясненную» и «необъясненную»

Где:

Схема дисперсионного анализа имеет вид, представленный в таблице (n – число наблюдений, m – число параметров при переменной x)

Компоненты дисперсии	Сумма квадратов	Число степеней свободы	Дисперсия на одну степень свободы
Общая
Факторная		m
Остаточная

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду (степени свободы – это числа, показывающие количество элементов варьирования, которые могут принимать произвольные значения, не изменяющие заданных характеристик). Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера (коэффициент (индекс) детерминации R²)

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

F-тест(F-критерий Фишера – оценивание качества уравнения регрессии – состоит в проверке гипотезы Н₀о статистической значимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F_факт и критического (табличного) F_табл значений F-критерия Фишера F_факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

где:

n – число единиц совокупности;

m – число параметров при переменных х.

F_табл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01.

Если F_табл < F_факт, то Н₀ – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F_табл > F_факт, то гипотеза Н₀ не отклоняется и признается статистическая значимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитывается t-критерий Стьюдента и доверительные интервалы каждой из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка знамчимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

Домашнее задание

Сравнивая фактическое и критическое (табличное) значения t-статистики – t_табл и t_факт – принимаем или отвергаем гипотезу Н₀.

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если tтабл < tфакт, то Н₀отклоняется, т.е. a,b и признается случайная природа формирования a,b, или

Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение y_p определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения х_р. Вычисляется средняя стандартная ошибка прогноза

где

и строится доверительный интервал прогноза:

РЕШЕНИЕ ЗАДАЧИ

По территориям региона приводятся данные за определенный период.

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х	Среднедневная заработная плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Требуется:

1. Построить линейное уравнение парной регрессии y по x.

2. Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F -критерия Фишера и t -критерия Стьюдента.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике отложить исходные данные и теоретическую прямую.

Решение

Для расчета параметров уравнения линейной регрессии строим расчетную таблицу

№

У*Х

Х²

У²

A_i

133

10374

6084

17689

148,78

-15,78

249,008

11,86

148

12136

6724

21904

152,46

-4,46

19,8916

3,01

134

11658

7569

17956

157,06

-23,06

531,764

17,2

154

12166

6241

23716

149,7

4,3

18,49

2,79

162

14418

7921

26244

158,9

3,1

9,61

1,91

106

195

20670

11236

38025

174,54

20,46

418,612

10,49

139

9313

4489

19321

138,66

0,34

0,1156

0,24

158

13904

7744

24964

157,98

0,02

0,0004

0,012

152

11096

5329

23104

144,18

7,82

61,1524

5,144

162

14094

7569

26244

157,06

4,94

24,4036

3,049

159

12084

5776

25281

146,94

12,06

145,444

7,584

115

173

19895

13225

29929

182,82

-9,82

96,4324

5,676

Итого

1027

1869

161808

89907

294377

1869,08

-0,08

1574,92

Среднее значение

85,58

155,75

13484,00

7492,25

24531,42

155,76

131,24

0,00

12,952

16,53

δ²

167,74

273,35

По формулам находим параметры регрессии

Получено уравнение регрессии:

у= 77,02+0,92* х

Параметр регрессии позволяет сделать вывод, что с увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб. (или 92 коп.). После нахождения уравнения регрессии заполняем столбцы 7–10

2. Тесноту линейной связи оценит коэффициент корреляции:

Т.к. значение коэффициента корреляции больше 0,7, то это говорит о наличии весьма тесной линейной связи между признаками.

Коэффициент детерминации:

Это означает, что 52% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации

Качество построенной модели оценивается как хорошее, так как A не превышает 10%.

3. Оценку статистической значимости уравнения регрессии в целом проведем с помощью F -критерия Фишера. Фактическое значение F -критерия по формуле составит:

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы k₁=1 и k₂=12 - 2 =10 составляет F _табл. = 4,96. Так как F_факт =10,41> F_табл = 4,96, то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии и корреляции проведем с помощью t -статистики Стьюдента и путем расчета доверительного интервала каждого из параметров.

Табличное значение t -критерия для числа степеней свободы df=n-2=12-2=10 и уровня значимости α=0,05 составит t_табл = 2,23. Определим стандартные ошибки m_а, m_b, (остаточная дисперсия на одну степень свободы )

Тогда

Фактические значения t-статистики превосходят табличное значение:

t_a=3.26>t_табл; =3.16 > t_табл=2.3;

Поэтому параметры a, b и r_xy не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии a и b. Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью p =1-a = 0,95 параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. являются статистически значимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит: руб., тогда индивидуальное прогнозное значение заработной платы составит:

Ошибка прогноза составит:

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит

Доверительный интервал прогноза:

Выполненный прогноз среднемесячной заработной платы является надежным (р=1-α=1-0,05=0,95) и находится в пределах от 131,92 руб. до 190,66 руб.

В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую

Решение задачи в MS Excel.

C помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии.

Если в меню сервис еще нет команды Анализ данных, то необходимо сделать следующее. В главном меню последовательно выбираем Сервис→Надстройки и устанавливаем «флажок» в строке Пакет анализа

Далее следуем по следующему плану.

1. Если исходные данные уже внесены, то выбираем Сервис→Анализ данных→Регрессия.

3. Заполняем диалоговое окно ввода данных и параметров вывода

Заполнение необходимых значений.

Здесь:

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон, содержащий данные признака- фактора;

Метки – «флажок», который указывает, содержи ли первая строка названия столбцов;

Константа – ноль – «флажок», указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист – можно указать произвольное имя нового листа (или не указывать, тогда результаты выводятся на вновь созданный лист).

Получаем следующие результаты для рассмотренного выше примера:

Откуда выписываем, округляя до 4 знаков после запятой и переходя к нашим обозначениям:

Уравнение регрессии:

Коэффициент корреляции

Коэффициент дерерминации:

Фактическое значение F-критерия Фишера:

F=10.8280

Остаточная дисперсия на одну степень свободы:

Корень квадратный из остаточной дисперсии (стандартная ошибка):

Стандартные ошибки для параметров регрессии:

Фактические значения t-критерия Стьюдента:

Доверительные интервалы:

Как видим, найдены все рассмотренные выше параметры и характеристики уравнения регрессии, за исключением средней ошибки аппроксимации (значение t-критерия Стьюдента для коэффициента корреляции совпадает с t_b). Результаты «ручного учета» от машинного отличаются незначительно (отличия связаны с ошибками округления).

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2 3 4 5 6 7

Соотношение системы права и системы законодательства

Правосознание: понятие, структура, виды

Суд и судебный процесс в Законах Хаммурапи

Охрана редких и вымирающих видов

Ремонт посудомоечных машин своими руками

Показатели тесноты корреляционной связи для многофакторной корреляционно-регрессионной модели

Самый сильный аргумент, почему эволюция человека не могла быть