Цель: научиться методики проверки с помощью ЭВМ основных предпосылок метода наименьших квадратов, который лежит в основе всего регрессионного анализа.
Проверим выполнение предпосылок метода наименьших квадратов по данным из следующего примера.
Пример. По статистическим данным, приведенным ниже в таблице, необходимо построить линейную регрессионную модель.
Х | |||||||||||||||
Y |
Для ее реализации и возможности использования нужно проверить предпосылки использования метода наименьших квадратов, который лежит в основе регрессионного анализа.
1. Для проверки первой предпосылки «Случайный характер остатков» нужно получить график остатков – отклонений данных от линии регрессии. Вводим в А1-Р2 данные вместе с подписями. В строке 3 строим данные регрессии. Для этого в А3 вводим подпись «Регрессия», а в В3 вводим формулу «ТЕНДЕНЦИЯ» (категория «Статистические»), аргументы которой следующие: «Изв_знач_у» – ссылка на вторую строку B2:P2, «Изв_знач_х» – ссылка на первую строку B1:P1, «Нов_знач_х» – опять ссылка на B1:P1, «Константа» – 1. Далее обводим В3-Р3, выделяя их, и нажимаем F2 и затем «Ctrl+Shift+Enter». в строке 4 вводим остатки. В А4 вводим подпись «Остатки», а в В4 формулу «=В2-В3». Автозаполнением переносим результат на В4-Р4. Строим график остатков. Обводим, выделяя А4-Р4 и вызываем мастер диаграмм. Выбираем категорию «Точечные», тип «Точечная диаграмма» (в верхнем левом углу), нажимаем «Далее». Переходим на закладку «Ряд», переводим курсор в поле «Значения Х» и обводим диапазон В1-Р1. По графику видно, что точки – метки остатков, действительно распределены случайно.
|
|
2. Для проверки второй предпосылки «Близкая к нулю сумма остатков для любого интервала значений фактора» нужно вычислить суммы остатков для первой, второй и третьей трети значений Х. Для этого в А6 вводим подпись «S1=», в В6 функцию СУММ (категория «Математические»), аргумент которой «Число 1» - ссылка на пять первых остатков - B4:F4. В С6 вводим «S2=», в D6 функцию СУММ с аргументом - ссылкой на вторые пять остатков - G4:K4. В Е6 вводим «S3=», в F6 – СУММ с аргументом - ссылкой на третью пятерку остатков - L4:P4. Видно, что все три числа близки к нулю (не превышают единицы), что говорит о малости суммы остатков для любой области аргумента.
3. Третья предпосылка – «Отсутствие гетероскедастичности остатков» предполагает, что дисперсия остатков равна для любой области значений аргументов. Также, как и в пункте 2, вычисляем дисперсии для первой, второй и третьей части значений Х. Для этого в А7 вводим подпись «D1=», в В7 функцию ДИСП (категория «Статистические»), аргумент которой «Число 1» - ссылка на пять первых остатков - B4:F4. В С7 вводим «D2=», в D7 функцию ДИСП(G4:K4). В Е6 вводим «D3=», в F7 – ДИСП(L4:P4). Видно, что дисперсии близки по величине друг к другу. Проверим статистическую гипотезу (при a=0,05) о равенстве дисперсий друг другу. Для этого в Н7 вводим «Критерий», в I7 формулу критерия, равную отношению большей дисперсии (1,313) к меньшей (0782), т.е. формулу «=F7/D7». Результат 1,679. Вводим в J7 подпись «Критическое», а в К7 функцию FРАСПОБР, аргументы которой равны: «Вероятность» равна 0,05 (дана по условию), «Степени свободы 1» равно 4 (число точек большей дисперсии минус один), «Степени свободы 2» равно 4 (число точек меньшей дисперсии минус один). Результат 6,388. Видно, что критерий меньше критического значения, значит, дисперсии можно считать равными, а остатки гомоскедастичными.
|
|
4. Предпосылку «Отсутствие автокорреляции остатков» проверяем вычислением парного коэффициента автокорреляции. Вводим в А8 «Автокорреляция» и в В8 функцию ПИРСОН (категория «Статистические»). В поле аргумента «Массив 1» делаем ссылку на остатки все, кроме последнего (B4:O4), а в поле «Массив 2» - ссылку на те же остатки, но со смещением на один, обводя их мышью все, кроме первого (C4:P4). Коэффициент автокорреляции равен -0,527. Хоть и видно что он невысок, но его необходимо проверить на значимость. В С8 вводим подпись «Критерий», а в D8 формулу критерия
, в виде записи «=ABS(B8)*КОРЕНЬ(13/(1-B8*B8))». Сравним этот показатель с критическим значением при a=0,01. В Е8 вводим подпись «Критическое», а в F8 функцию СТЬЮДРАСПОБР (категория «Статистические») с аргументами «Вероятность» 0,01, «Степени свободы» 12. Видно, что 2,236<3,055, что говорит о отсутствии автокорреляции.
5. Предпосылку «Закон распределения остатков близок к нормальному» можно проверить выполнением неравенства , где САО – среднеабсолютное отклонение, S – среднеквадратическое (стандартное) отклонение. Вводим в В9 функцию «=ABS(СРОТКЛ(B4:P4)/СТАНДОТКЛОН(B4:P4)-0,7979)<0,4/КОРЕНЬ(15)». Результат – «ИСТИНА», что говорит о том, что распределение остатков близко к нормальному.
Таким образом, можно считать, что все пять предпосылок метода наименьших квадратов выполнены, и построенную регрессионную модель можно использовать для получения оценок и прогнозов.
Задание на самостоятельную работу
В соответствии с методом наименьших квадратов по опытным данным найти уравнение линейной регрессии . Проверить выполнение всех пяти предпосылок МНК.
Вари-ант | Значения фактора хi, (одинаковое для всех вариантов) | |||||||||
Значения результирующего признака yi, (по вариантам) | ||||||||||
1. | 12,3 | 16,3 | 16,4 | 16,0 | 18,5 | 17,3 | 20,0 | 19,5 | 19,0 | 19,7 |
2. | 39,5 | 40,3 | 40,7 | 40,8 | 43,1 | 42,7 | 45,3 | 46,2 | 47,4 | 49,5 |
3. | 32,4 | 32,4 | 34,8 | 37,1 | 38,0 | 38,7 | 38,6 | 39,9 | 43,8 | 43,5 |
4. | 21,0 | 23,0 | 23,7 | 23,8 | 25,8 | 27,6 | 28,4 | 29,7 | 31,7 | 31,6 |
5. | 27,6 | 28,8 | 29,6 | 31,1 | 30,9 | 31,3 | 33,1 | 34,6 | 35,1 | 37,2 |
6. | 30,6 | 32,8 | 32,1 | 33,7 | 35,1 | 39,2 | 37,4 | 39,7 | 42,3 | 43,4 |
7. | 18,5 | 19,5 | 20,1 | 23,7 | 23,6 | 24,0 | 26,2 | 26,5 | 28,3 | 28,1 |
8. | 13,3 | 12,2 | 13,1 | 11,5 | 15,7 | 13,7 | 16,8 | 13,9 | 16,9 | 16,8 |
9. | 14,2 | 16,3 | 16,6 | 18,9 | 19,4 | 20,4 | 23,3 | 24,2 | 27,1 | 27,4 |
10. | 34,4 | 34,8 | 36,1 | 37,7 | 37,3 | 37,5 | 37,5 | 39,6 | 40,9 | 43,6 |
11. | 20,6 | 20,2 | 19,6 | 21,3 | 23,2 | 23,9 | 23,2 | 23,0 | 24,1 | 25,2 |
12. | 17,4 | 18,6 | 18,0 | 21,3 | 21,3 | 24,4 | 24,1 | 27,2 | 27,0 | 28,7 |
13. | 38,3 | 39,3 | 40,1 | 43,9 | 42,9 | 42,1 | 45,2 | 44,3 | 47,9 | 47,8 |
14. | 38,0 | 40,9 | 39,1 | 39,7 | 39,3 | 38,4 | 41,4 | 42,9 | 41,3 | 42,7 |
15. | 36,7 | 36,5 | 37,2 | 38,0 | 38,3 | 39,5 | 41,7 | 39,9 | 42,0 | 41,8 |