Корреляционная матрица

Корреляционная матрица показывает зависимость величин друг от друга. Элементами корреляционной матрицы являются коэффициенты корреляции величин.

Для данной задачи корреляционная матрица имеет следующий вид:

 

Matrix CORR1

          Y              X1          X2             X3            X4           X5

Y 1,00000 0,95179 -0,94538 0,44751 0,94534 0,68268

X1 0,95179 1,00000 -0,94202 0,39826 0,99738 0,54441

X2 -0,94538 -0,94202 1,00000 -0,17453 -0,92843 -0,74841

X3 0,44751 0,39826 -0,17453 1,00000 0,41992 -0,11842

X4 0,94534 0,99738 -0,92843 0,41992 1,00000 0,51508

X5 0,68268 0,54441 -0,74841 -0,11842 0,51508 1,00000

 

Проанализировав корреляционную матрицу, выявляем, что все предикторы являются хорошими и положительная зависимость существует со всеми предикторами, кроме Х2 (ожидаемая продолжительность жизни).

Для нас не представляет интереса брать предикторы Х2 и Х4, так как они сильно коррелированны с другими предикторами. По данной корреляционной матрице мы выбираем предикторы Х1 (детская смертность), Х3 (плодовитость женщин), Х5 (рост сельского населения), так как они в лучшей степени объясняют У (уровень рождаемости).

 Всего можно построить 9 моделей с двумя предикторами, но т.к. мы не рассматриваем предикторы Х2 и Х4, то приведем модели с оставшимися предикторами и установим какая модель описывает Уровень рождаемости в большей степени.

1. Модель с предиктором Х1 (детская смертность):

Уравнение регрессии:

Уровень рождаемости = 5,85 + 0,712 Детская смертность

R-Sq = 90,6%  

 

Предиктор Х1 описывает Уровень рождаемости на 90,6 %.

2. Модель с предиктором Х3 (плодовитость женщин):

Уравнение регрессии:

Уровень рождаемости = - 1,27 + 8,02 Плодовитость женщин

R-Sq = 20,0%  

Предиктор Х3 описывает Уровень рождаемости всего лишь на 20%.

3. Модель с предиктором Х5 (рост сельского населения):

Уравнение регрессии:

Уровень рождаемости = 9,35 + 2,00 Рост сельского хозяйства

R-Sq = 46,6%  

Предиктор Х5 описывает Уровень рождаемости на 46,6%.

4. Модель предикторами Х1, Х3, Х5:

Уравнение регрессии:

Уровень рождаемости = 1,58 + 0,510 Детская смертность

                             + 3,86 Плодовитость женщин

                             + 0,987 Рост сельского населения

R-Sq = 97,6%

Предикторы Х1, Х3, Х5 описывают Уровень рождаемости на 97,6%.

 

 

5. Модель с предикторами Х1 и Х3:

Уравнение регрессии:

Уровень рождаемости = 4,01 + 0,687 Детская смертность

                             + 1,46 Плодовитость женщин

R-Sq = 91,1%  

Предикторы Х1 и Х3 описывают Уровень рождаемости на 91,1%.

6. Модель с предикторами Х1 и Х5:

Уравнение регрессии:

Уровень рождаемости = 6,27 + 0,616 Детская смертность

                             + 0,686 Рост сельского населения

R-Sq = 94,4%  

Предикторы Х1 и Х5 описывают Уровень рождаемости на 94,4 %.

 

7. Модель с предикторами Х3 и Х5:

Уравнение регрессии:

Уровень рождаемости = - 3,63 + 9,61 Плодовитость женщин

                             + 2,19 Рост сельского населения

R-Sq = 74,9%

Предикторы Х3 и Х5 описывают Уровень рождаемости на 74,9%.

8. Модель со всеми предикторами:

Уравнение регрессии:

Уровень рождаемости = 0,3 - 0,017 Детская смертность

- 0,413 Ожидаемая продолжительность жизни при рождении                             + 5,15 Плодовитость женщин

                          + 0,69 Женское население

                       + 0,546 Рост сельского населения

R-Sq = 98,3%

Проанализировав все наилучшие модели, приходим к выводу, что лучшей моделью является модель с тремя предикторами Х1 (детская смертность), Х3 (плодовитость женщин) и Х5 (рост сельского населении), зависимость данных предикторов с Уровнем рождаемости составляет 0,95179, 0,44751, 0,68268 соответственно. Коэффициент детерминации R2 равен 97,6%, это значит, что эти предикторы описывают Уровень рождаемости (Y) на 97,6 %.

Хотя модель со всеми предикторами имеет самый высокий коэффициент детерминации, равный 98,3%, данная модель не может исследоваться в качестве наилучшей, так как между некоторыми предикторами существует высокая коллинеарность.

Проводя дальнейшие исследования будет использована модель с тремя предикторами (Х1, Х3 и Х5).

 

Проверка F теста с заданным уровнем доверия.

F-тест проверяет значимость уравнения регрессии в целом, существует ли зависимость между постоянной и переменными.

Выдвигаем гипотезы:

H0: ρ2=0

H1: ρ2 >0

При нулевой гипотезе подтверждается, что между переменными и постоянной не существует зависимость.

Если же подтверждается первая гипотеза, то устанавливается, что между постоянной и переменными существует зависимость.

Для проверки теста понадобятся значения Fstat и Ftab.

 

 

Fstat находим по следующей формуле:

Source     DF  SS MS  F P

Regression  3 22,4816 7,4939 244,05 0,000

Residual Error 18 0,5527 0,0307

Total      21 23,0343

 

Найдем Ftab с уровнем доверия α= 0,05

Ftab= 3,15991

 

Сравнив значения Ftab и Fstat приходим в выводу, что Ftab< Fstat (3,15991<244,05), значит, отвергается нулевая гипотеза, и устанавливается, что выбранное уравнение регрессии в значительной степени описывает Уровень рождаемости на протяжении всех годов, которые были выбраны к качестве данных.

 

Тест на коэффициент регрессии проводится, чтобы установить все ли выбранные предикторы одинаково хорошо описывают модель во все периоды времени или всё же существуют некоторые отклонения.

Выдвинем следующие гипотезы:

H0: β1≠0

H1: β1=0

H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Детской смертностью нет линейной зависимости

H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

H0: β3≠0

H1: β3=0

H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Плодовитостью женщин нет линейной зависимости

H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

H0: β5≠0

H1: β5=0

H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Ростом сельского населения нет линейной зависимости

H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

df=(n-k)=(22-4)=18

Так как мы проводим 2-х хвостовой тест, мы находим ttab с уровнем доверия α/2= 0,05/2=0,025.

t(0,05/2)(18)= 2,10092

tstat вычисляется по следующей формуле:

Для вычисления tstat вычислим Sb (Стандартная ошибка коэффициента регрессии)  по формуле:

 

S1=0,03

S3=0,79

S5=0,14

 

 

Predictor                      Coef SE Coef T     VIF

Constant                     1,5836 0,9771 1,62 

Детская смертность           0,51050 0,03914 13,04 2,1

Плодовитость женщин          3,8616 0,7928 4,87    1,5

Рост сельского населения     0,9869 0,1419 6,96   1,8

t(0,05/2)(18)<t

По данным видно, что для всех предикторов отвергается нулевая гипотеза. Из этого следует, что между Уровнем рождаемости и всеми предикторами – детская смертность, плодовитость женщин и рост сельского населении существует линейная зависимость, на всем исследуемом промежутке времени.

Проведя t-тест, установлены наилучшие предикторы, которые описывают изменения Уровня рождаемости.

 

Коэффициент детерминации показывает, на сколько зависит зависимая переменная от независимой.

В данной задаче коэффициент детерминации показывает насколько взятые предикторы, объясняют изменение Уровня рождаемости.

 

Определим коэффициент детерминации по формуле:

 или

Для данной задачи коэффициент детерминации составляет R2 = 97,6%, т.е. Уровень рождаемости на 97,6 % объясняется Детской смертностью, Плодовитостью женщин и Ростом сельского населения.

Стандартная ошибка оценивания - это величина изменчивости, наблюдаемых значений Y, вокруг линии регрессии:

S = 0,175230

Это значит, что значения Y (Уровень рождаемости) будут отклоняться от линии регрессии на 0,175.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: