Задание 3. Линейный регрессионный и корреляционный анализ функции двух переменных

 

1.  Из табл. П.2.1 выбрать строку с данными, соответствующими номеру варианта. Из табл. П.2.2 - П.2.5 выбрать ту таблицу, которая соответствует номеру варианта, и из нее выбрать данные, из которых сформировать исходную выборку.

2.  Вычислить выборочные средние и дисперсии для каждой переменной: j, var (xj), j = 1, 2, а также , var (y).

3.  Построить матрицу парных коэффициентов корреляции и сделать выводы о тесноте связи между факторами x1 и x2.

4.  Проверить значимоcть коэффициентов корреляции , j = 1, 2 по критерию Стьюдента для уровня значимости a = 5%.

5.  Построить уравнение линейной регрессии = xj + b 0 для  p = 2, решив СЛАУ, полученную из условия МНК.

6.  Вычислить остаточную сумму квадратов MSE.

7.  Для заданой в условии варианта точки прогнозирования вычислить по уравнению регрессии прогнозное значение n +1.

Примечание. Данные для выполнения задания 3 находятся в табл. П.2.2 - П.2.5. Табл. П.2.1 позволяет определить по номеру вари-анта, какие собственно данные (табл. П.2.2 - П.2.5) следует выбирать, чтобы получить исходную выборку в виде y (x 1, x 2). Столбики       табл. П.2.2 - П.2.5 имеют сквозную нумерацию, в соответствии с которой они и заданы в табл. П.2.1. Например, если в варианте в табл. П.2.1 задано y (x 1, x 2 ) Û 2(4, 3), то необходимо данные второго столбика табл. П.2.2 считать переменной y, данные четвертого столбика - переменной x 1, а данные третьего столбика - переменной x 2. Эти три столбца исходных данных нужно скопировать на новый рабочий лист, после чего выполнить нужные расчеты.

На практике часто имеет место ситуация, когда количественные из-менения изучаемого явления (функции отклика y) зависят от неско-льких аргументов (факторов). Подробное изложение общих прин-ципов регрессионного анализа матричными методами приведено в за-даниях 4 и 5. Здесь приводится только способ расчета простейшей двумерной задачи. Пусть результатом наблюдений есть матрица вида

,

где n - размер выборок, p - число измеряемых факторов, xij - зна-чение j -го фактора для i -го измерения, yi - значение функции отклика для i -го измерения. Задача множественного линейного регрессионного анализа состоит в построении такого уравнения плоскости в (p+ 1)-мерном пространстве, отклонения результатов наблюдений yi от которой были бы минимальными. Другими словами, следует вычислить значения коэффициентов bj, j = 1,…, p в линейном полиноме   = xj + b 0, основываясь на минимизации по МНК выражения

S (bp,,bj, …,b 0) = = .

Для определения минимума выражения S (bp,,bj, …, b 0) нужно, как обычно, найти частные производные по всем неизвестным bj,     j = 1,…, p и приравнять их к нулю. Полученные при этом уравнения образуют СЛАУ с матрицей A и вектором свободных членов :

A = , = .

Решив эту СЛАУ, определим значения bp,, bj, …, b 0, и таким образом получим уравнение линейной многофакторной регрессии.

В домашнем задании требуется построить двумерную линейную регрессию вида   = b 2 x 2 + b 1 x 1 + b 0. Матрица СЛАУ для двумерного слу-чая - это обведенная рамкой часть матрицы общего вида A, вектор свободных членов СЛАУ - первые три строки вектора . Таким обра-зом, СЛАУ будет состоять из трех уравнений, и ее можно решать ме-тодом Крамера по аналогии со СЛАУ из подразд. 2.1. Функция EXCEL, которая вычисляет определитель матрицы, называется МОПРЕД.

Линейный многомерный корреляционный анализ заключается в построении матрицы парных коэффициентов корреляции вида

,

компоненты которой вычисляются по формулам:

;

 (КОРРЕЛ на Excel).

Как и прежде, во всех формулах задания 3 там, где опущен индекс суммирования, подразумевается суммирование по всем компонентам выборок, т. е. по индексу i = 1,…, n.

Вычисленные значения  определяют тесноту связи между функцией отклика y и одним из факторов xj, а показывают тесноту связи между факторами xj и xm. Значение парного коэффициента корреляции изменяется от -1 до +1. Если, например, коэффициент  < 0, то это означает, что xj уменьшается с увеличением y, и наооборот. Если один из коэффициентов окажется равным ±1, то это означает, что факторы xj и xm функционально (невероятностно) связаны между собой, и тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактор, у которого коэффициент  больше.

Значимость парных коэффициентов корреляции можно проверить по критерию Стьюдента -  является значимым, если выполняется условие .

Примечание. Большая часть расчетов заданий 1 и 3 на Excelможно выполнить с помощью стандартной процедуры ЛИНЕЙН, для работы с которой имеется подробная справка с разобранным примером. Краткие сведения по использованию этой функции приведены в прил. 3. Следует обратить внимание на то, что ЛИНЕЙН  является функцией массива, возвращая массив значений. Формула массива создается так же, как и простая формула. Только перед началом создания формулы массива нужно выделить группу ячеек для ответов (5 строк и 3 столбца для двумерной линейной регрессии), вызвать функцию, ввести ее параметры, а потом для выхода из окна параметров нажать клавиши CTRL+SHIFT+ENTER (см. прил. 3).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: