Задача «О сотрудниках предприятия»

Лабораторная работа №6

Тема: Корреляционно–регрессионный анализ.

Простое уравнение регрессии.

Задача «О сотрудниках предприятия»

Фирма принимает на работу 20 сотрудников. Каждый из тех сотрудников, кого фирма принимает, предварительно проходит тест. Его профессиональные навыки оцениваются по 10-бальной системе. Через полгода работы производительность труда каждого из них (Х1) предприятие оценивает по 20-бальной системе (Х2).

Результаты испытаний приведены в следующей таблице.

X1 X2
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   

Задание:

1) Найти коэффициент корреляции и проверить его значимость. Оценить тесноту (силу) корреляционной связи между признаками.

2) Составить линейное уравнение регрессии Y на X. Изобразить соответствующие графики.

3) Установить форму взаимосвязи признаков, т.е. вид функций регрессии.

Шкала Чеддока:

Величина коэф. тесноты связи 0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99
Характеристика силы связи слабая умеренная заметная высокая весьма высокая

Графики:

1) Графическое изображение линейного уравнения регрессии X1 и X2.

Красными линями отмечен 95% доверительный интервал;

Розовыми линиями – прогнозный интервал.

2) График остатков.

3) График остатков

4) График остатков.


Сравнительный анализ моделей для уравнения регрессии X1 от X2

   
 
 
 
 
 


Линейная зависимость по точности стоит на четвертом месте, R2 = 0,4416. Самая наилучшая модель – экспоненциальная, R2 = 0,4507. Из трёх выбранных моделей менее хорошая – мультипликативная, R2 = 0,4010.


Экспоненциальная модель

Из трёх приведённых моделей экспоненциальная модель является наиболее точной и для неё коэффициент детерминации наибольший.

Регрессионный анализ X1 от X2 (результаты теста от производительности труда) - Мультипликационная модель

Из трёх приведённых моделей мультипликационная – самая худшая.

Регрессионный анализ X2 от X1 (Результаты теста в зависимости от производительности труда) – Линейная модель

Если a < 0 – (в нашем случае a (Intercept – пересечение) = -5,30504), то относительное изменение X2 происходит более интенсивно, чем относительное изменение независимой переменной X1.

Коэффициент b (Slope-наклон) показывает, насколько в среднем изменится X2 при изменении X1 на единицу.

Теснота корреляционной связи оценивается коэффициентом вариации (rв = 0,6645). В соответствии со шкалой Чеддока связь заметная (между X1 и X2) и прямая.

Рассчитывается по формуле

А) Проверка значимости коэффициента корреляции на основе критерия Стьюдента.

Н0: rв = 0 линейная корреляционная связь между переменными отсутствует.

Н1: rв ≠ 0 – наличие линейной корреляционной связи.

tнабл > tкр. Гипотеза H0 отвергается – присутствует линейная корреляционная связь между переменными.

Критерий Стьюдента по таблице: p-value по фактору по фактору b = 0,0014 < α = 0,05, коэффициент при переменной X (b-коэффициент) значительно отличен от нуля. X значимо влияет на Y.

Б) Проверка значимости Коэффициента детерминации по критерию Фишера:

H0: R2 = 0 – коэффициент детерминации не значим.

H1: R2 ≠ 0 – коэффициент детерминации значим.

P-value = 0,0014 < α = 0,05, гипотезу H0 отвергаем – коэффициент детерминации значим, уравнение регрессии в целом значимо. Коэффициенты уравнения регрессии не равны 0.

Коэффициент детерминации R2 = 44,16% показывает, что Y зависит на 44,16% от фактора X, а на 55,84% зависит от каких-либо других неучтённых факторов, не входящих в модель.


Прогноз по уравнению регрессии X2 от X1


Сравнительный анализ моделей для уравнения регрессии X2 от X1

Линейная зависимость по точности стоит на четвертом месте, R2 = 0,4416. Это самая наилучшая модель. Мультипликативная модель по точности стоит на втором месте из трёх, R2 = 0,4010 Из трёх выбранных моделей менее хорошая – экспоненциальная, R2 = 0,3892.

Графики:

1) Графическое изображение линейного уравнения регрессии X1 и X2.

Красными линями отмечен 95% доверительный интервал;

Розовыми линиями – прогнозный интервал.

2) График остатков.

3) График остатков

4) График остатков.


Регрессионный анализ X2 от X1 (Результаты теста в зависимости от производительности труда) – Экспоненциальная модель

Из трёх приведённых моделей экспоненциальная модель является самой худшей и для неё коэффициент детерминации наименьший.


Регрессионный анализ X2 от X1 (Результаты теста в зависимости от производительности труда) – Мультипликативная модель

Из трёх приведённых моделей мультипликативная модель по точности стоит между Линейной моделью и Экспоненциальной моделью.

Корреляционно-регрессионный анализ X2 на Х1

X1 X2
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
ВЫВОД ИТОГОВ  
Регрессионная статистика
Множественный R Коэффициент корреляции 0,66449341
R-квадрат Коэффициент детерминации 0,441551492
Нормированный R-квадрат 0,410526575
Стандартная ошибка Sy,x 2,104841601
Наблюдения  

Выборочный коэффициент корреляции больше нуля. Следовательно, связь прямая, то есть с ростом одной переменной растёт среднее знаяение другой; По Шкале Чеддока связь заметная. По коэффициенту детерминации: изменение Y (X2) зависит от X (Х1) на 44%, а другие неучтённые факторы, случайности - 56%.

Дисперсионный анализ        
  df SS MS F Значимость F
Регрессия   63,05355 63,05355 14,23216 0,001394
Остаток   79,74645 4,430358    
Итого   142,8      

Н0: R2 = 0 – коэффициент детерминации не значим;

Н1: R2 ≠ 0 – коэффициент детерминации значим.

P-value = 0,01 < α = 0,05, гипотезу Н0 - отвергаем. Коэффициент детерминации значим, уравнение регрессии значимо.

  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение (а) -5,353038387 5,257098 -1,01825 0,322051 -16,3978 5,691714 -16,3978 5,691714
X1 (b) 0,244015298 0,064682 3,772553 0,001394 0,108124 0,379907 0,108124 0,379907

а= -5,35. b = 0, 24. y = -5,35+0,24X.

P-value = 0,0014 < α = 0,05. Гипотезу Н0 - отвергаем, следовательно, X (X1) значительно влияет на Y (X2).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: