Регрессионные модели

Особенности и типы регрессионных моделей. Модель парной регрессии, подбор формы модели по диаграмме рассеивания, теоретическая модель. Интерполяция и экстраполяция в регрессионных уравнениях. Оценка параметров модели парной линейной регрессии с помощью метода наименьших квадратов.

Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели.

Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными.

В управлении и планировании существует целый ряд типовых задач, которые можно переложить на плечи компьютера. Пользователь таких программных средств может даже и не знать глубоко математику, стоящую за применяемым аппаратом. Он должен представлять лишь суть решаемой проблемы, готовить и вводить в компьютер исходные данные, интерпретировать полученные результаты. Программным продуктом, который можно использовать для этих целей, является Ms Excel.

Ms Excel – это не просто электронная таблица с данными и формулами для вычислений. Это универсальная система обработки данных, которая может использоваться для анализа и представления данных в наглядной форме.

Одной из чаще всего используемых возможностей Excel является экстраполяция данных – например, для анализа имеющихся фактических данных, оценки тенденции их изменения и получения на этой основе краткосрочного прогноза на будущее. В этом случае используется линейная экстраполяция данных на основе наименьшего квадратичного отклонения – отыскивается линейная зависимость данных, такая, которая бы минимизировала сумму квадратов разностей между имеющимися фактическими данными и соответствующими значениями на прямой линейного тренда (интерполяционной или экстраполяционной зависимости). На основе найденной зависимости можно сделать разумное предположение об ожидаемых будущих значениях изучаемого ряда данных.

Решение задач планирования и управления постоянно требует учета зависимостей одних факторов от других.

Рассмотрим различные методы представления зависимостей.

Если зависимость между величинами удаётся представить в математической форме, то имеем математическую модель.

Математическая модель – это совокупность количественных характеристик некоторого объекта (процесса) и связей между ними, представленных на языке математики.

Математические модели могут быть представлены в виде формул, уравнений или систем уравнений. Например, зависимость времени падения тела на землю от первоначальной высоты описывается формулой . Рассмотрим примеры других способов представления зависимостей между величинами: табличного и графического. По результатам эксперимента мы составили таблицу и нарисовали график (рисунок 1).

Н (м) t (сек)
  1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Рисунок1. Табличное и графическое представление данных.

Мы рассмотрели три способа отображения зависимости величин: функциональный (формула), табличный и графический. Но математической моделью процесса падения тела на землю можно назвать только формулу, т.к. формула универсальна. Таблица и диаграмма (график) констатируют факты, а математическая модель позволяет прогнозировать, предсказывать путем расчетов.

Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер. Однако, они верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.

График искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ёе график точно проходил через все данные точки (рисунок 2), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.

Отсюда следуют основные требования к искомой функции:

- она должна быть достаточно простой для использования её в дальнейших вычислениях;

- график этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рисунок 3).

а)

б)

Рисунок 3. Два варианта построения графической зависимости по экспериментальным данным.

Полученную функцию, график которой приведен на рисунке 3(б), принято называть в статистике регрессионной моделью. Регрессионная модель – это функция, описывающая зависимость между количественными характеристиками сложных систем.

Получение регрессионной модели происходит в два этапа:

1. Подбор вида функции;

2. Вычисление параметров функции.

Чаще всего выбор производится среди следующих функций:

y = ax + b – линейная функция;

y = ax+ bx + c – квадратичная функция;

y = aln(x) + b – логарифмическая функция;

y = aebx - экспоненциальная функция;

y = axb - степенная функция.

Если Вы выбрали (сознательно или наугад) одну из предлагаемых функций, то следующим шагом нужно подобрать параметры (a,b, c и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Для этого подходит метод наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у – координат всех экспериментальных точек от у – координат графика функции была бы минимальной.

Важно понимать следующее: методом наименьших квадратов по данному набору экспериментальных точек можно построить любую функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос – вопрос критерия соответствия. На рисунке 4 изображены 3 функции, построенные методом наименьших квадратов.

Рисунок 4

Данные рисунки получены с помощью Ms Excel. График регрессионной модели называется трендом (trend – направление, тенденция).

График линейной функции – это прямая. Полученная по методу МНК прямая отражает факт роста заболеваемости от концентрации угарного газа, но по этому графику трудно что – либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды – ведут себя очень правдоподобно.

На графиках присутствует ещё одна величина, полученная в результате построения трендов. Она обозначена как R2. В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной получится регрессионная модель. Коэффициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели неудачен. Чем R2 ближе к 1, тем удачнее регрессионная модель.

Метод наименьших квадратов используется для вычисления параметров регрессионной модели. Этот метод содержится в математическом арсенале электронных таблиц.

Получив регрессионную математическую модель мы можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосфере угарный газ, то, рассчитав возможную концентрацию газа, можно предсказать, как это отразится на заболеваемости астмой жителей города.

Существуют два способа прогнозов по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это значение концентрации угарного газа – С), то это называется восстановлением значения.

Прогнозирование за пределами экспериментальных данных называется экстраполяцией.

Имея регрессионную модель, легко прогнозировать, производя расчеты с помощью электронной таблицы.

Табличный процессор дает возможность производить экстраполяцию графическим способом, продолжая тренд за пределы экспериментальных данных. Как это выглядит при использовании квадратичного тренда для С = 7 показано на рисунке 5.

Рисунок 5

В ряде случаев с экстраполяцией надо быть осторожным. Применимость всякой регрессионной модели ограничена, особенно за пределами экспериментальной области.

Список литературы.

1. Новиков Ф.А., Яценко А.Д.. Microsoft Office. С.-П.:БХВ-Петербург, 2002г. стр.449-458

2. Семакин И.Г., Хеннер Е.К. Информатика.11класс. М.: БИНОМ. Лаборатория знаний, 2003г. стр.102-117


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: