Множественный регрессионный анализ

Эконометрика.

       Задача эконометрики заключается в оценивании параметров генеральной совокупности и в установлении зависимости объясняемых переменных от одного или нескольких объясняющих переменных на основании данных эмпирических наблюдений. Напомним основные понятия математической статистики и эконометрики, необходимые для выполнения контрольной работы.

Парный регрессионный анализ.

Предположим, что две величины,  и , связаны между собой стохастической зависимостью вида , где  ¾ нормально распределенная случайная величина, с нулевым математическим ожиданием и среднем квадратичным уклонением s, не зависящая от . Производится  независимых наблюдений, в каждом из которых мы отслеживаем значения пары . Результатом такого статистического опыта является следующая выборка объема :      , , …, .

На основании этих данных мы пытаемся установить точечные и интервальные оценки параметров , , а также точечные и интервальные оценки индивидуальных и средних значений переменной  при различных уровнях фактора .

       Теорема Гаусса—Маркова утверждает, что статистическими оценками параметров , , имеющими наименьшую дисперсию в классе линейных несмещенных оценок, являются следующие величины. Оценкой  является величина

где                                       

Для оценки параметра  служит величина                

Теперь, если значение параметра  задано, то точечная оценка параметра  вычисляется по формуле         .

Интервальные оценки для , , а также оценки значений объясняемой переменной , основаны на следующей точечной оценке параметра  случайной величины  (стохастической части зависимости ):

.

       Доверительный интервал для параметра  уравнения линейной регрессии с доверительной вероятностью  имеет вид:   ,

где  - критическая точка распределения Стьюдента с доверительной вероятностью  и числом степеней свободы .

       Доверительный интервал для оценки дисперсии  случайной величины  с доверительной вероятностью  имеет вид:                ,

где  критическая точка распределения  с доверительной вероятностью  и числом степеней свободы .

       Доверительный интервал для средних значений объясняемой переменной  при выбранном уровне значений переменной  с доверительной вероятностью  имеет вид

, где ,

а , по-прежнему, критическая точка распределения Стьюдента с доверительной вероятностью  и числом степеней свободы .

Доверительный интервал для индивидуальных значений объясняемой переменной  при выбранном уровне значений переменной  с доверительной вероятностью  будет шире и определяется неравенством   ,

где   .

       После определения параметров регрессионной модели следует проверить гипотезу о значимости линейного уравнения регрессии. Значимость уравнения регрессии означает, что линейная часть  в зависимости  является существенной, отличной от нуля. Уравнение регрессии  является незначимым, если разброс данных таков, что от выбора значений  практически ничего не зависит, и изменения наблюдаемой величины  объясняется лишь наличием стохастической зависимости вида . Зададимся уровнем значимости гипотезы, равным  (уровень значимости гипотезы есть вероятность отвергнуть утверждение гипотезы в случае, когда оно на самом деле справедливо). Тогда гипотеза о значимости линейного уравнения регрессии принимается, если    ,

где  есть коэффициент детерминации, определяемый по формуле

,

а  – критическая точка распределения Фишера-Снедекора с уровнем значимости  и числом степеней свободы 1 и . В противном случае гипотезу о значимости регрессии на данном уровне значимости отвергают.

       Если коэффициент детерминации  достаточно велик, и уравнение линейной регрессии можно считать значимым, то  показывает, какая доля в изменении значений переменной  обязана изменению линейной части  в соотношении , в отличие от стохастической части , которая обуславливает разброс значений  независимо от выбора .

       Квадратичная регрессия объясняемой переменной  на объясняющую переменную  есть точечная оценка параметров стохастической зависимости

,

где  нормально распределенная случайная величина с нулевым математическим ожиданием и средним квадратичным уклонением , не зависящая от выбора . Чтобы найти несмещенные точечные оценки , ,  параметров , ,  методом Гаусса, составим функцию                     .

Искомые оценки есть решение задачи              ,

которая по теореме Ферма сводится к решению следующей невырожденной системы линейных уравнений на неизвестные параметры , , :

что может быть записано в виде                

Вычислив коэффициенты при неизвестных в этой системе уравнений, мы любым известным способам (например, методом последовательных исключений переменных Гаусса) можем решить эту систему и определить значения коэффициентов квадратичной регрессии.

 

Задача 13.1. Имеются следующие данные о сменной добыче угля на одного рабочего y (т) и мощности пласта x (м) по 10 различным шахтам:

 

i 1 2 3 4 5
xi 19 28 24 17 26
yi 16 24 22 15 24

 

i 6 7 8 9 10
xi 17 19 24 17 26
yi 15 26 23 16 15

В предположении, что между условным среднем  и x имеется связь вида , где e - нормально распределенная случайная величина (не зависящая от x) с нулевым математическим ожиданием и среднем квадратичным уклонением s, определить:

1) точечные оценки параметров a 0; a 1, s;

2) найти 95% доверительные интервалы для параметра a 1 уравнения регрессии и для параметра s;

3) среднюю добычу угля на одного рабочего для пласта мощностью 20 м;

4) найти 95% доверительные интервалы для средней и индивидуальной выработки рабочего для пласта мощностью 20 м;

5) проверить гипотезу о значимости уравнения регрессии на уровне значимости a =0.05;

6) определить коэффициент детерминации регрессионной модели.

Кроме того, методом наименьших квадратов Гаусса найти уравнение квадратичной регрессии .

Решение. 1). Найдем сначала точечные оценки выборок для переменных  и . Выборочные средние значения  и  находим из соотношений

,

.

Для выборочных дисперсий и средних квадратичных уклонений получаем:

Отсюда

           

       Для вычисления коэффициента линейной регрессии по формуле  осталось найти смешанную сумму

Отсюда следует, что                                                            

Из формулы получаем оценку      .

Таким образом, уравнение линейной регрессии имеет вид       .

Теперь по формуле  мы можем найти точечную оценку параметра  случайной величины :

Отсюда .

       2) Найдем 95% доверительные интервалы для параметров  и s. Используем формулы

,                 .

При , , критические точки распределения Стьюдента и распределения  можно найти по таблицам этих распределений, и они равны соответственно

,

Отсюда следует, что доверительный интервал для параметра  уравнения регрессии есть

Аналогично, доверительный интервал для параметра  имеет вид

       3) Найдем среднюю добычу угля на одного рабочего для пласта мощностью  м. Подставим  в уравнение линейной регрессии :

       4) Найдем 95% доверительные интервалы для средней и индивидуальной выработки рабочего для пласта мощностью  м. Используем формулы:

,             ,

для интервальной оценки средней выработки, и формулы

,           

для интервальной оценки индивидуальной выработки. Получаем:

Аналогично, для интервальной оценки индивидуальной выработки получаем:

5) Проверим гипотезу о значимости уравнения регрессии на уровне значимости a =0.05. Для этого найдем коэффициент детерминации по формуле

.

Получаем:              ,

Следовательно,                     

Критическая точка распределения Фишера-Снедекора при уровне значимости a =0.05 равна  ,

откуда получаем, что,           .

Следовательно, уравнение линейной регрессии следует признать незначимым на данном уровне значимости.

6) Коэффициент детерминации регрессионной модели был найден при проверке гипотезы о значимости уравнения регрессии. Поскольку , следует заключить, что в зависимости объясняемой переменной  от  наиболее существенную роль играют случайные факторы, а не линейная часть регрессии .

7) Найдем уравнение квадратичной регрессии . Для этого подсчитаем коэффициенты линейной системы уравнений, которая определяется из принципа наименьших квадратов Гаусса:

Часть коэффициентов этой системы фактически уже была найдена в предыдущих пунктах. А именно,

,             ,

,                ,

Осталось, следовательно, вычислить три коэффициента системы.

 

Получаем:           

Для решения системы используем пакет символьных вычислений MATHCAD. Средствами этой программы решение системы линейных уравнений производится с помощью следующих командных строк.

 

Решениями системы являются числа        

Таким образом, квадратичная регрессия имеет вид    

В заключение, построим графики функций  и  на отрезке . Для построения графиков функций вновь используем программу MATHCAD.

Множественный регрессионный анализ.

       В данном разделе эконометрики рассматриваются зависимости объясняемой переменной  от двух и более объясняющих переменных , ,... Предполагается, что имеется  наблюдений величины  и  величин , ,... , между которыми имеется связь вида

.

Здесь  случайная величина, распределенная по нормальному закону с нулевым средним и среднеквадратичным уклонением . Будем считать, что коэффициент  стоит при переменной , которая принимает все время одно и то же значение, равное 1. Тогда результаты наблюдений могут быть записаны в виде –мерного вектор—столбца  и матрицы  размера                     .

В матрице  каждый столбец представляет собой результаты наблюдений одной из величин , , ,... . В предположении независимости наблюдений, можно показать, что статистической оценкой параметров , ,…, , имеющей наименьшую дисперсию, является -мерный вектор          .

Здесь и далее  – транспонированная матрица . Уравнение линейной множественной регрессии имеет вид             .

Раздельное влияние на  объясняющих переменных характеризуется стандартизированными коэффициентами регрессии  и коэффициентами эластичности  ().

,                     ,

где , , , . Стандартизированный коэффициент регрессии  является статистическим аналогом коэффициента корреляции зависимой переменной с –й объясняющей переменной . Коэффициент корреляции принимает значения из отрезка . Равенство этого коэффициента  указывает на функциональную зависимость между переменными , . Наоборот, близость коэффициента корреляции к нулю позволяет сделать заключение о слабой зависимости между  и  . Коэффициент эластичности  показывает, насколько процентов изменится в среднем значение величины  при увеличении только одной переменной  на 1%.

       Коэффициент детерминации регрессии  определяется по формуле

и показывает, какая доля в изменении зависимой переменной  обусловлена влиянием переменных , ,...  (, соответственно, показывает долю стохастической части  в зависимости ).

       Зная коэффициент детерминации , можно проверить гипотезу о значимости уравнения регрессии на заданном уровне значимости . Гипотеза принимается, если выполнено неравенство                     ,

где, как и раньше,  ¾ критическая точка распределения Фишера-Снедекора с вероятностью  и числом степеней свободы  и .

       Выпишем формулы доверительных интервалов для параметров уравнения линейной регрессии, а также доверительные интервалы для среднего и индивидуального значений переменной  при заданных значениях , ,... .

       Определим точечную оценку  параметра  случайной величины  в зависимости  по формуле

.

Зададим доверительную вероятность . Доверительный интервал с доверительной вероятностью  для –го коэффициента регрессии задается неравенством

, ,

где  - критическая точка распределения Стьюдента с вероятностью  и числом степеней свободы , а           ,

(  ¾ элемент, стоящий на диагонали матрицы  на –м месте).

       Доверительный интервал с доверительной вероятностью  для среднего значения переменной  при заданных значениях переменных , , …,  определяется формулой             ,

где

,

Здесь  ¾ скалярное произведение векторов  и .

Для индивидуальных значений переменной  соответствующий доверительный интервал несколько больше:          ,

где .

Задача 13.2.  Имеются следующие данные о выработке литья на одного рабочего x 1 (т), браке литья x 2 (%) и себестоимости 1 т литья (т. руб.) по 10 литейным заводам:

 

I 1 2 3 4 5
24 34 37 34 34
10 7 12 7 19
yi 7 19 13 8 13

 

I 6 7 8 9 10
27 41 24 24 37
7 20 9 7 13
yi 8 20 15 12 9

В предположениях классической линейной модели требуется:

1) найти множественный коэффициент детерминации и пояснить его смысл;

2) найти уравнение  множественной регрессии  на x 1, x 2, и оценить значимость этого уравнения и его коэффициентов на уровне a =0.05;

3) сравнить раздельное влияние на зависимую переменную каждой из объясняющих переменных, используя стандартизированные коэффициенты регрессии и коэффициенты эластичности;

4) найти 95 %-ные доверительные интервалы для коэффициентов регрессии, а также доверительные интервалы для среднего и индивидуального показателей значения себестоимости 1 т литья в цехах, в которых выработка литья на 1 рабочего составляет 17 т, а брак литья - 7%.

       Решение. По данным задачи выпишем вектор  и матрицу , и определим коэффициенты уравнения линейной регресии.

Тогда

Найдем последовательно матрицу  и вектор .

и, кроме того,

Теперь вычислим обратную матрицу      .

Остается перемножить матрицу  и вектор :

Таким образом, уравнение регрессии имеет вид:           .

Найдем точечные оценки для всех имеющихся переменных.

,

,

,

       Теперь мы в состоянии определить коэффициент детерминации уравнения регрессии

.

Вычислим сначала сумму

Отметим, что                   ,

откуда следует, что    

Коэффициент детерминации  интерпретируется как доля изменения зависимой переменной, обусловленная изменением независимых переменных, то есть в нашем случае изменение  на 44.2% связано с изменением значений переменных  и  и на 55.8% со случайными факторами.

       Чтобы проверить гипотезу о значимости уравнения регрессии на уровне значимости , воспользуемся критерием значимости

.

В нашем случае       ,   ,

и условие значимости не выполняется, что означает, что на выбранном уровне значимости гипотезы (когда мы хотим, чтобы вероятность ошибки первого рода была достаточно мала) экспериментальные данные позволяют считать, что на самом деле линейная часть уравнения регрессии равна нулю, и разброс значений переменной  связан только со случайными факторами.

       Найдем стандартизированные регрессии и коэффициенты эластичности для каждой из объясняющих переменных. Имеем:

,

То, что выборочный коэффициент корреляции больше для переменной  указывает на то, что в нашем примере второй параметр более тесно связан с независимой переменной, чем первый. Далее,

,

,

откуда можно сделать вывод, что при увеличении величины  на 1% величина  уменьшается на 12.2%, в то время как увеличение  на 1% дает прирост  на 56.1%.

       Найдем 95 %-ный доверительный интервал для коэффициентов регрессии. Нам потребуется точечная оценка параметра  стохастической части зависимости случайной величины от , :

(сумма 81.711 в числителе этой формулы была найдена ранее при вычислении коэффициента детерминации ).

Доверительные интервалы с доверительной вероятностью 0.95 для коэффициентов регрессии имеют вид

 для коэффициента ,

 для коэффициента ,

 для коэффициента ,

где

,

элементы, стоящие на диагонали матрицы . Матрица  была ранее найдена в явном виде, поэтому

С учетом того, что  получаем три доверительных интервала для коэффициентов соответственно:

Определим теперь доверительные интервалы для среднего и индивидуального показателей значения себестоимости 1 т литья в цехах, в которых выработка литья на 1 рабочего составляет  т, а брак литья - %. Формула для доверительного интервала для средних значений переменной имеет вид

,

Где            ,

Получаем

,

Откуда        .

Тем самым доверительный интервал определен:

.

Для индивидуальных значений переменной  соответствующий доверительный интервал имеет вид:        ,

где                   ,

откуда         

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: