Парный регрессионный анализ

Регрессионная модель связывает числовую зависимую переменную (отклик) с одним (простая регрессия) или несколькими (множественная регрессия) независимыми переменными (предикторами, регрессорами). Регрессионным анализом называется поисками такой модели, т.е. поиск некоторой функции, описывающей эту зависимость [2].

Различают линейные и нелинейные регрессионные модели. Рассмотрим последовательность действий при решении простой линейной регрессии.

· Подбор вида модели [2]. Первым шагом является предложение о возможном виде зависимости y=f(x). В «STATGRAPHICS» перечень моделей следующий [1] (таблица 3).

Таблица 3 – Виды стандартных уравнений программы «STATGRAPHICS»

Тип модели	Связь
1	2
Линейная	y=a+bx
Экспоненциальная	y=exp(a+bx)
Обратная по У	y=1/(a+bx)
Обратная по Х	y=a+b/x
Дважды обратная	y=1/(a+b/x)
Логарифм по Х	y=a+lnx

Окончание таблицы 3

1	2
Мультипликативная	y=a*b^x
Квадратный корень по Х	x
Возведенный в квадрат по У	y=(a+bx)^2
S-кривая	y=exp(a+b/x)
Логистическая функция	y=1/(1+exp(-x))

На предварительном этапе необходимо построить диаграмму связи y=f(x) точечного вида для того, чтобы определить вид, форму связи, что позволяет оценить расположение облака точек в плотности у-х.

· Оценка параметров модели. После подбора вида модели производится вычисление параметров модели (коэффициентов уравнений). В случае линейной регрессии используют метод наименьших квадратов.

· Анализ адекватности модели. После построения регрессионной модели необходимо установить, насколько хорошо полученная модель описывает имеющиеся данные. С этой целью проводится дисперсионный анализ и определяются такие показатели, как коэффициент детерминации, значимость оценок параметров, анализ остатков [2].

Остатками (residuals) называются разности между фактическими значениями зависимой переменной У и модельными У_выр _., т.е. рассчитанными по подобранной регрессионной функции. Анализ остатков позволяет сказать, насколько оптимально подобрана модель и насколько правильно выбран метод оценки параметров. Если построенная регрессионная модель адекватно описывает истинную зависимость, то остатки должны быть независимыми, нормально распределенными, случайными величинами с нулевым средним. Поэтому необходимо провести проверку выполнения этих условий.

Начинать анализ остатков следует с построения графиков, на которых можно выявить особенности, не учтенные при построении регрессионной модели. График, на котором на одной из осей откладываются значения независимой переменной Х, а по другой – соответствующие значения остатков: в случае наличия определенной закономерности в распределении остатков делается вывод о неадекватности описания данных. Это указывает на необходимость пересмотра модели (преобразования или ввода новых переменных, поиска другого вида модели).

График, на котором по одной из осей откладываются модельные значения У_выр _., а по другой – значения остатков, позволяет судить о постоянстве (гомоскедастичности) или непостоянстве (гетероскедастичности) дисперсии ошибки (остатков) [2]. Если точки нанесены на график неупорядоченно, то дисперсия ошибки – величина постоянная. В противном случае изменчивость остатков меняется с изменением зависимой переменной, что указывает на неадекватность исходной гипотезы и на неадекватность модели, то есть на то, что необходимо выполнить преобразование переменных.

Если графики остатков показывают резко отклоняющиеся от модели наблюдения (выбросы), то подобные данные необходимо устанавливать, так как их присутствие может грубо искажать значения оценок параметров (особенно если используются метод наименьших квадратов) и привести к ошибочным выводам. Устранение эффекта выбросов можно проводить либо путем удаления этих данных из анализируемой выборки (метод цензурирования), либо с помощью применения методов оценивания параметров, устойчивых к подобным грубым отклонениям [2].

В «STATGRAPHICS» простая регрессия реализуется командой Relate\Simple Regression. После выбора этого пункта появляется стандартный диалог выбора анализируемых данных (рисунок 19).

Рисунок 19 – Диалоговое окно для задания зависимой и независимой переменных регрессионного анализа

В полях Х и У необходимо задать имена колонок, где находятся зависимые и независимые переменные. Результат регрессионного анализа представлено в табличном виде (рисунок 20).

Дадим пояснения приведенным здесь значением на примере линейной модели [2].

В первой строке описывается вид модели:

Linear Model – y=a+bx. Функцию можно изменить: активизировать правую клавишу мыши в данном окне, выбрав в меню команду «Analysis options», а в появившемся списке выбрать уравнение. Далее идет таблица параметров модели (рисунок 20). Оценка представлена для свободного коэффициента а (Intercept) и коэффициента при независимой переменной b (Slope). Значение коэффициентов записаны в таблице «Estimate». Ошибки коэффициентов – «Standard Error». Оценка коэффициентов по критерию Стьюдента – «T Statistic». Уровень значимости коэффициентов – «p-value».

Рисунок 20– Окно результатов регрессионного анализа

Вторая таблица характеризует дисперсионный анализ модели – «Analysis of Variance» и служит для оценки адекватности построенной модели. В случае регрессионного анализа общая дисперсия отклика У относительно его среднего значения делится на вариацию, обусловленную модель (Model) и остаточную дискуссию, обусловленную не учитываемыми факторами (Residual). Для проверки гипотезы о равенстве коэффициента b нулю используется критерий Фишера (F-Ratio) – отклонение дисперсии, обусловленной моделью, и дисперсии ошибок (остатков). В таблице приводится полученное значение (F_ф> F_таб _.). Уровень значимости модели должны быть меньше р ≤ 0,05.

Далее приводится значения трех показателей.

Correlation Coefficient – выборочный коэффициент корреляции между зависимой и независимой переменными (коэффициент выравнивания модели).

R-Squared – коэффициент детерминации (R²), который показывает долю влияния учитываемых переменных модели на зависимою переменную, %.

Standard Error of Estimation – стандартная ошибка оценки – среднеквадратическое отклонение регрессионных остатков.

Для графического отображения результатов нажимаем кнопку графических опции – «Graphical options» (третья слева в строке пиктограмма) [1]. В появившемся диалоговом окне (рисунок 21) выбираем команды «Plot of Fitted Model» и «Observed versus Predicted».

Рисунок 21 – Диалоговое окно выбора графических опций регрессионного анализа

В зависимости у_выр.=f(y_i) степень близости точек к диагональной прямой указывает на адекватность модели.

Для того чтобы выполнить проверку остатков на нормальность, их необходимо предварительно вычислить и сохранить как переменную. Для этого необходимо использовать опцию сохранения результатов - «Save results», в появившемся окне (рисунок 22) отмечаем «Residuals».

Рисунок 22 - Диалоговое окно отображения остатков

Основываясь на коэффициенте детерминации (R²), можно провести сравнение адекватности моделей [2]. Для этого используют опцию «Tabular Options» с отметкой галочкой команду «Comparison of alternative model». В окне результата (рисунок 23) будет представлена таблица альтернативных моделей.

В первом столбце таблицы указывается вид модели, а во втором – значение коэффициента корреляции, а в третьем – значение коэффициента детерминации.