Парная линейная регрессия

Цель: Освоить методы построения линейного уравнения парной регрессии с помощью ЭВМ, научиться получать и анализировать основные характеристики регрессионного уравнения.

Рассмотрим методику построения регрессионного уравнения на примере.

ПРИМЕР. Торговая организация желает выяснить, как влияет количество вложенных в рекламную акцию денег - X (тыс.руб.) на количество проданного товара – Y (тыс. шт.). Для этого проводились наблюдения в разных городах региона и были получены следующие данные.

X                        
Y                        

Введем эту таблицу в ячейки А1-M2 электронной книги Excel. Просмотрим предварительно, как лежат точки на графике и какое уравнение регрессии лучше выбрать. Для этого строим график. Вызвав мастер диаграмм и выбрав тип диаграммы «Точечная» нажимаем «Далее» и поместив курсор в поле «Диапазон» обводим курсором данные Y (ячейки В2-М2). Переходим на закладку «Ряд» и в поле «Значения Х» делаем ссылку на ячейки В1-М1, обводя их курсором. Нажимаем «Готово» Как видно из графика, точки хорошо укладываются на прямую линию, поэтому будем находить уравнение линейной регрессии вида .

Для нахождения коэффициентов а и b уравнения регрессии служат функции НАКЛОН и ОТРЕЗОК. категории «Статистические». Вводим в А5 подпись «а =» а в соседнюю ячейку В5 вводим функцию НАКЛОН, ставим курсор в поле «Изв_знач_у» задаем ссылку на ячейки В2-М2, обводя их мышью. Аналогично в поле «Изв_знач_х» даем ссылку на В1-М1. Результат 1,923921. Найдем теперь коэффициент b. Вводим в А6 подпись «b=», а в В6 функцию ОТРЕЗОК с теми же параметрами, что и у функции НАКЛОН. Результат 12,78151. Следовательно, уравнение линейной регрессии есть .

Построим график уравнения регрессии. Для этого в третью строчку таблицы введем значения функции регрессии в заданных точках Х (первая строка) - . Для получения этих значений используется функция ТЕНДЕНЦИЯ категории «Статистические». Вводим в А3 подпись «Y(X)» и, поместив курсор в В3, вызываем функцию ТЕНДЕНЦИЯ. В полях «Изв_знач_у» и «Изв_знач_х» даем ссылку на В2-М2 и В1-М1. В поле «Нов_знач_х» вводим также ссылку на В1-М1. В поле «Константа» вводят 1, если уравнение регрессии имеет вид , и 0, если . В нашем случае вводим единицу. Функция ТЕНДЕНЦИЯ является массивом, поэтому для вывода всех ее значений выделяем область В3-М3 и нажимаем F2 и Ctrl+Shift+Enter. Результат – значения уравнения регрессии в заданных точках. Строим график. Ставим курсор в любую свободную клетку, вызываем мастер диаграмм, выбираем категорию «Точечная», вид графика – линия без точек (в нижнем правом углу), нажимаем «Далее», в поле «Диапазон» вводим ссылку на В3-М3. Переходим на закладку «Ряд» и в поле «Значения Х» вводим ссылку на В1-М1, нажимаем «Готово». Результат – прямая линия регрессии. Посмотрим, как различаются графики опытных данных и уравнения регрессии. Для этого ставим курсор в любую свободную ячейку, вызываем мастер диаграмм, категория «График», вид графика – ломаная линия с точками (вторая сверху левая), нажимаем «Далее», в поле «Диапазон» вводим ссылку на вторую и третью строки В2-М3. Переходим на закладку «Ряд» и в поле «Подписи оси Х» вводим ссылку на В1-М1, нажимаем «Готово». Результат – две линии (Синяя – исходные данные, красная – уравнение регрессии). Видно что линии мало различаются между собой.

Для вычисления коэффициента корреляции служит функция ПИРСОН. Размещаем графики так, чтобы они располагались выше 25 строки, и в А25 делаем подпись «Корреляция», в В25 вызываем функцию ПИРСОН, в полях которой «Массив 1» и «Массив 2» вводим ссылки на исходные данные В1-М1 и В2-М2. Результат 0,993821. Коэффициент детерминации – это квадрат коэффициента корреляции . В А26 делаем подпись «Детерминация», а в В26 – формулу «=В25*В25». Результат 0,987681.

Однако, в Excel существует одна функция, которая рассчитывает все основные характеристики линейной регрессии. Это функция ЛИНЕЙН. Ставим курсор в В28 и вызываем функцию ЛИНЕЙН, категории «Статистические». В полях «Изв_знач_у» и «Изв_знач_х» даем ссылку на В2-М2 и В1-М1. Поле «Константа» имеет тот же смысл, что и в функции ТЕНДЕНЦИЯ, у нас она равна 1. Поле «Стат» должно содержать 1, если нужно вывести полную статистику о регрессии. В нашем случае ставим туда единицу. Функция возвращает массив размером 2 столбца и 5 строк. После ввода выделяем мышью ячейки В28-С32 и нажимаем F2 и Ctrl+Shift+Enter. Результат – таблица значений, числа в которой имеют следующий смысл:

Коэффициент а Коэффициент b
Стандартная ошибка Стандартная ошибка
Коэффициент детерминации Среднеквадратическое отклонение у
F – статистика Степени свободы п -2
Регрессионная сумма квадратов Остаточная сумма квадратов

Анализ результата: в первой строчке – коэффициенты уравнения регрессии, сравните их с рассчитанными функциями НАКЛОН и ОТРЕЗОК. Вторая строчка – стандартные ошибки коэффициентов. Если одна из них по модулю больше чем сам коэффициент, то коэффициент считается нулевым. Коэффициент детерминации характеризует качество связи между факторами. Полученное значение 0,987681 говорит об очень хорошей связи факторов. F – статистика проверяет гипотезу о адекватности регрессионной модели. Данное число нудно сравнить с критическим значением. для его получения вводим в Е33 подпись «F-критическое», а в F33 функцию FРАСПОБР, аргументами которой вводим соответственно «0,05» (уровень значимости), «1» (число факторов Х) и «10» (степени свободы). Видно, что F – статистика больше, чем F – критическое, значит регрессионная модель адекватна. В последней строке приведены регрессионная сумма квадратов и остаточные суммы квадратов . Важно, чтобы регрессионная сумма (объясненная регрессией) была намного больше остаточной (не объясненная регрессией, вызванная случайными факторами). В нашем случае это условие выполняется, что говорит о хорошей регрессии.

Задание на самостоятельную работу

Даны выборки факторов xi и yi. По этим выборкам найти уравнение линейной регрессии . Найти коэффициент парной корреляции. Проверить на уровне значимости регрессионную модель на адекватность.

Значения фактора хi (одинаковое для всех вариантов)
                   
Вари-ант Значения фактора yi (по вариантам)
1. -3,7 -3,1 -4,4 -6,5 -4,6 -4,4 -8,4 -4,1 -5,5 -7,5
2. 12,1 12,1 10,7 12,1 9,6 11,2 12,8 12,5 10,0 16,6
3. -2,3 -2,7 -2,9 -2,8 -2,1 3,0 2,2 4,7 4,5 3,2
4. 3,8 3,0 3,5 3,1 1,0 -0,6 0,1 -2,5 2,6 -1,2
5. 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9
6. 11,3 7,4 10,7 9,0 7,4 6,2 3,9 5,8 13,4 9,1
7. 3,2 3,1 3,7 1,4 3,5 4,3 0,6 -3,5 -2,4 -2,3
8. 15,1 11,0 12,3 10,3 9,6 6,2 8,0 10,6 8,3 6,4
9. 0,0 -0,8 1,9 3,5 2,4 5,4 8,7 11,2 10,8 12,7
10. 1,9 5,4 10,0 9,1 12,5 16,6 13,9 17,0 21,0 20,2
11. 0,0 3,7 4,6 3,0 0,2 5,3 5,0 6,2 9,2 14,5
12. 10,3 11,0 10,6 12,0 11,3 13,7 12,7 14,7 16,5 14,2
13. 2,1 0,1 1,2 0,8 2,8 1,5 2,7 1,8 0,0 -2,5
14. 0,3 -2,1 0,6 -2,8 -1,0 -3,4 0,0 -5,3 -1,0 -3,1
15. 13,6 13,9 13,1 10,5 13,9 14,7 12,2 17,7 17,5 19,0

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: