Корреляционная матрица

Корреляционная матрица показывает зависимость величин друг от друга. Элементами корреляционной матрицы являются коэффициенты корреляции величин.

Для данной задачи корреляционная матрица имеет следующий вид:

Matrix CORR1

Y X1 X2 X3 X4 X5

Y 1,00000 0,95179 -0,94538 0,44751 0,94534 0,68268

X1 0,95179 1,00000 -0,94202 0,39826 0,99738 0,54441

X2 -0,94538 -0,94202 1,00000 -0,17453 -0,92843 -0,74841

X3 0,44751 0,39826 -0,17453 1,00000 0,41992 -0,11842

X4 0,94534 0,99738 -0,92843 0,41992 1,00000 0,51508

X5 0,68268 0,54441 -0,74841 -0,11842 0,51508 1,00000

Проанализировав корреляционную матрицу, выявляем, что все предикторы являются хорошими и положительная зависимость существует со всеми предикторами, кроме Х2 (ожидаемая продолжительность жизни).

Для нас не представляет интереса брать предикторы Х2 и Х4, так как они сильно коррелированны с другими предикторами. По данной корреляционной матрице мы выбираем предикторы Х1 (детская смертность), Х3 (плодовитость женщин), Х5 (рост сельского населения), так как они в лучшей степени объясняют У (уровень рождаемости).

Всего можно построить 9 моделей с двумя предикторами, но т.к. мы не рассматриваем предикторы Х2 и Х4, то приведем модели с оставшимися предикторами и установим какая модель описывает Уровень рождаемости в большей степени.

1. Модель с предиктором Х1 (детская смертность):

Уравнение регрессии:

Уровень рождаемости = 5,85 + 0,712 Детская смертность

R-Sq = 90,6%

Предиктор Х1 описывает Уровень рождаемости на 90,6 %.

2. Модель с предиктором Х3 (плодовитость женщин):

Уравнение регрессии:

Уровень рождаемости = - 1,27 + 8,02 Плодовитость женщин

R-Sq = 20,0%

Предиктор Х3 описывает Уровень рождаемости всего лишь на 20%.

3. Модель с предиктором Х5 (рост сельского населения):

Уравнение регрессии:

Уровень рождаемости = 9,35 + 2,00 Рост сельского хозяйства

R-Sq = 46,6%

Предиктор Х5 описывает Уровень рождаемости на 46,6%.

4. Модель предикторами Х1, Х3, Х5:

Уравнение регрессии:

Уровень рождаемости = 1,58 + 0,510 Детская смертность

+ 3,86 Плодовитость женщин

+ 0,987 Рост сельского населения

R-Sq = 97,6%

Предикторы Х1, Х3, Х5 описывают Уровень рождаемости на 97,6%.

5. Модель с предикторами Х1 и Х3:

Уравнение регрессии:

Уровень рождаемости = 4,01 + 0,687 Детская смертность

+ 1,46 Плодовитость женщин

R-Sq = 91,1%

Предикторы Х1 и Х3 описывают Уровень рождаемости на 91,1%.

6. Модель с предикторами Х1 и Х5:

Уравнение регрессии:

Уровень рождаемости = 6,27 + 0,616 Детская смертность

+ 0,686 Рост сельского населения

R-Sq = 94,4%

Предикторы Х1 и Х5 описывают Уровень рождаемости на 94,4 %.

7. Модель с предикторами Х3 и Х5:

Уравнение регрессии:

Уровень рождаемости = - 3,63 + 9,61 Плодовитость женщин

+ 2,19 Рост сельского населения

R-Sq = 74,9%

Предикторы Х3 и Х5 описывают Уровень рождаемости на 74,9%.

8. Модель со всеми предикторами:

Уравнение регрессии:

Уровень рождаемости = 0,3 - 0,017 Детская смертность

- 0,413 Ожидаемая продолжительность жизни при рождении + 5,15 Плодовитость женщин

+ 0,69 Женское население

+ 0,546 Рост сельского населения

R-Sq = 98,3%

Проанализировав все наилучшие модели, приходим к выводу, что лучшей моделью является модель с тремя предикторами Х1 (детская смертность), Х3 (плодовитость женщин) и Х5 (рост сельского населении), зависимость данных предикторов с Уровнем рождаемости составляет 0,95179, 0,44751, 0,68268 соответственно. Коэффициент детерминации R² равен 97,6%, это значит, что эти предикторы описывают Уровень рождаемости (Y) на 97,6 %.

Хотя модель со всеми предикторами имеет самый высокий коэффициент детерминации, равный 98,3%, данная модель не может исследоваться в качестве наилучшей, так как между некоторыми предикторами существует высокая коллинеарность.

Проводя дальнейшие исследования будет использована модель с тремя предикторами (Х1, Х3 и Х5).

Проверка F теста с заданным уровнем доверия.

F-тест проверяет значимость уравнения регрессии в целом, существует ли зависимость между постоянной и переменными.

Выдвигаем гипотезы:

H₀: ρ²=0

H₁: ρ² >0

При нулевой гипотезе подтверждается, что между переменными и постоянной не существует зависимость.

Если же подтверждается первая гипотеза, то устанавливается, что между постоянной и переменными существует зависимость.

Для проверки теста понадобятся значения F_stat и F_tab.

F_stat находим по следующей формуле:

Source DF SS MS F P

Regression 3 22,4816 7,4939 244,05 0,000

Residual Error 18 0,5527 0,0307

Total 21 23,0343

Найдем Ftab с уровнем доверия α= 0,05

F_tab= 3,15991

Сравнив значения F_tab и F_stat приходим в выводу, что F_tab< F_stat (3,15991<244,05), значит, отвергается нулевая гипотеза, и устанавливается, что выбранное уравнение регрессии в значительной степени описывает Уровень рождаемости на протяжении всех годов, которые были выбраны к качестве данных.

Тест на коэффициент регрессии проводится, чтобы установить все ли выбранные предикторы одинаково хорошо описывают модель во все периоды времени или всё же существуют некоторые отклонения.

Выдвинем следующие гипотезы:

H₀: β₁≠0

H₁: β₁=0

H₀-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Детской смертностью нет линейной зависимости

H₁-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

H₀: β₃≠0

H₁: β₃=0

H₀-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Плодовитостью женщин нет линейной зависимости

H₁-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

H₀: β₅≠0

H₁: β₅=0

H₀-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Ростом сельского населения нет линейной зависимости

H₁-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

df=(n-k)=(22-4)=18

Так как мы проводим 2-х хвостовой тест, мы находим t_tab с уровнем доверия α/2= 0,05/2=0,025.

t_(0,05/2)(18)= 2,10092

t_stat вычисляется по следующей формуле:

Для вычисления t_stat вычислим S_b (Стандартная ошибка коэффициента регрессии) по формуле:

S₁=0,03

S₃=0,79

S₅=0,14

Predictor Coef SE Coef T VIF

Constant 1,5836 0,9771 1,62

Детская смертность 0,51050 0,03914 13,04 2,1

Плодовитость женщин 3,8616 0,7928 4,87 1,5

Рост сельского населения 0,9869 0,1419 6,96 1,8

t_(0,05/2)(18)<t

По данным видно, что для всех предикторов отвергается нулевая гипотеза. Из этого следует, что между Уровнем рождаемости и всеми предикторами – детская смертность, плодовитость женщин и рост сельского населении существует линейная зависимость, на всем исследуемом промежутке времени.

Проведя t-тест, установлены наилучшие предикторы, которые описывают изменения Уровня рождаемости.

Коэффициент детерминации показывает, на сколько зависит зависимая переменная от независимой.

В данной задаче коэффициент детерминации показывает насколько взятые предикторы, объясняют изменение Уровня рождаемости.

Определим коэффициент детерминации по формуле:

или

Для данной задачи коэффициент детерминации составляет R² = 97,6%, т.е. Уровень рождаемости на 97,6 % объясняется Детской смертностью, Плодовитостью женщин и Ростом сельского населения.

Стандартная ошибка оценивания - это величина изменчивости, наблюдаемых значений Y, вокруг линии регрессии: