Линейная множественная регрессия

Цель: По опытным данным построить уравнение множественной линейной регрессии и определить его характеристики.

ПРИМЕР. Некоторая организация занимается торговлей компьютерами. Она определила, что на количество продаж основное влияние оказывают следующие факторы: цена товара , затраты на рекламу и число конкурирующих организаций в регионе . Результаты наблюдений приведены в таблице

Х1                            
Х2                            
Х3                            
Y                            

Построим линейное уравнение множественной регрессии. Для этого предварительно исследуем матрицу парных коэффициентов корреляции. Вводим исходные данные вместе с подписями в ячейки А1-О4. Для построения матрицы парной корреляции вызываем меню «Сервис/Анализ данных» (если пункт меню отсутствует, то вызываем «Сервис/Надстройки» и ставим галочку напротив строки «Пакет анализа»). Выбираем пункт «Корреляция». В появившемся окне в поле «Входной интервал» задаем ссылку на таблицу – А1-О4. Указываем группирование «По строкам». Ставим флажок в «Метки в первом столбце» (так как в ссылках на таблицу указаны подписи строк). В области «Параметры вывода» ставим флажок напротив «Выходной интервал» и напротив в поле даем ссылку на какую-либо ячейку, откуда будет осуществляться вывод данных, например А7. Нажимая «ОК», получаем нижнюю половину матрицы парной корреляции. Для общей оценки мультиколлинеарности факторов и адекватности регрессионной модели рассчитаем определители матриц . Сформируем полную матрицу парных коэффициентов корреляции. В С8 задаем формулу «=В9», в D8 ссылку «=B10», в D9 – «=С10», в Е8 – «=В11», в Е9 – «=С11», в Е10 – «D11». Далее, для вычисления определителей в ячейку А13 вводим заголовок « =» и в В13 ставим курсор и задаем функцию «МОПРЕД» (категория «Математические»), в которой аргумент «Массив» является ссылкой на ячейки B8:E11. В ячейку А14 вводим заголовок « =» и в В14 ставим курсор и задаем функцию «МОПРЕД» с аргументом «Массив» - ссылкой на B8:D10. Результат - 0,427104 (ближе к 0, чем к 1), что говорит о достаточно высокой общей мультикорреляции. Найдем теперь коэффициент множественной корреляции. В А15 вводим «Rх=», а в В15 формулу «=КОРЕНЬ(1-В13/В14)». Результат 0,883788 говорит о достаточно высокой связи между фактором и функцией отклика.

Проведем теперь отбор факторов. Рассмотрим матрицу коэффициентов парной корреляции. Видно, что . Факторы можно считать коллинеарными (интеркоррелированными), если их парный коэффициент по модулю больше 0,7. В нашем случае таких пар факторов нет. Все факторы можно считать независимыми друг от друга и использовать в регрессионном уравнении. Определим теперь влияние каждого фактора на функцию отклика Y. Для этого рассмотрим коэффициенты парной корреляции . Видно, что третий коэффициент -0,45 намного меньше по модулю, чем примерная граница 0,7, поэтому влияние третьего фактора Х3 на результат мало и его можно отбросить из рассмотрения.

Копируем теперь на А18-О20 функцию отклика и значимые факторы (1, 2 и 4 строки, соответственно А1-О2 копируем в А18-О19, а А4-О4 – в А20-О20). В ячейку А22 вводим заголовок «Линейная» и в соседнюю В22 вводим функцию, определяющую параметры линейной регрессии «=ЛИНЕЙН» (категория «Статистические»). Аргументы функции: «Изв_знач_у» - B20:O20 (значения функции), «Изв_знач_х» - B18:O19 (значения двух значимых аргументов), «Константа» – 1 (расчет свободного члена), «Стат» - 1 (вывод дополнительных характеристик регрессии). Результат вычислений функции ЛИНЕЙН в случае функции нескольких переменных имеет вид:

Коэффициент аk Коэффициент ak- 1 Коэффициент Коэффици-ент
Стандартная ошибка Стандартная ошибка Стандартная ошибка Стандартная ошибка
Коэффициент детерминации Среднеквадратическое отклонение у нет данных нет данных
F – статистика Степень свободы п - k -1 нет данных нет данных
Регрессионная сум-ма квадратов Остаточная сумма квадратов нет данных нет данных

В нашем случае имеем два фактора , поэтому обводим 5 строк и три столбца В22-D26 и нажимаем F2 и Ctrl+Shift+Enter.

Первая строка результата – значения параметров регрессионного уравнения - числа . Следовательно, уравнение регрессии есть . Вторая строка – стандартные ошибки коэффициентов. Все они меньше самих коэффициентов, это значит, что коэффициенты значимы. В ячейках D24-D26 стоят значения «#Н/Д» (нет данных), как и должно быть в соответствии с таблицей.

Коэффициент детерминации равен 0,7783. Видно, что F-критерий регрессионной модели равен 19,3097. Проверим модель на адекватность. Вычислим критическое значение статистики. Вводим в ячейку Н22 подпись «F-критическое» а в I22 вводим функцию FРАСПОБР, имеющую аргументы: «Вероятность» – уровень значимости, если он не задан в условии (как в нашем случае), то обычно его принимаем 0,05. Аргумент «Степени_свободы_1» - число независимых переменных (у нас их две - ). Аргументом «Степени_свободы_2» служит число, показанное в ячейке С25 (в данном примере – 11). Видно, что F-статистика больше ее критического значения, поэтому модель адекватна.

Задание на самостоятельную работу

Задание 1. Построить двухфакторную модель по данным

Х1                    
Х2                    
Вар. Значения Y (по вариантам)
1. 38,1 38,6 40,9 38,6 41,3 43,1 44,3 43,0 45,8 46,2
2. 30,8 31,1 30,4 31,7 30,5 33,5 31,0 34,5 36,0 32,9
3. 10,7 11,0 13,2 12,4 13,2 13,3 14,4 15,3 14,8 14,8
4. 23,7 24,8 25,8 27,6 26,9 25,2 26,6 26,3 29,0 30,4
5. 22,8 26,3 28,0 26,1 26,0 29,9 30,9 32,9 33,9 33,5
6. 26,5 26,4 28,2 26,7 29,1 29,7 29,7 31,2 32,1 32,4
7. 25,3 28,8 30,1 30,0 32,5 31,4 32,0 36,4 35,6 36,9
8. 10,0 9,7 11,6 12,2 13,3 13,9 15,6 16,7 15,1 16,8
9. 20,9 20,7 20,8 20,9 22,8 22,4 24,5 22,9 22,7 24,6
10. 24,8 26,5 28,3 29,1 27,0 28,4 30,0 32,4 32,0 32,3
11. 29,4 30,0 32,0 33,1 32,6 33,9 33,6 35,0 34,7 35,9
12. 20,3 20,4 22,1 24,3 25,1 25,1 26,9 25,4 27,8 26,9
13. 20,8 20,2 21,5 21,8 24,4 23,7 25,7 24,7 27,2 24,8
14. 28,6 28,6 28,8 29,2 31,7 32,7 32,1 33,3 33,8 35,0
15. 16,1 17,0 20,5 17,1 18,8 21,0 22,7 24,2 23,4 26,7

Задание 2. Отобрать факторы и построить регрессионную модель для данных (для всех вариантов).

Х1                          
Х2                          
Х3                          
Х4                          
Y                          

проверить значимость модели на уровне 0,01.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: