Прогнозирование поведения систем с использованием регрессионной модели

Одна из важнейших целей моделирования заключается в прогно­зировании поведения исследуемого объекта. Обычно термин «про­гнозирование» используется в тех ситуациях, когда требуется пред­сказать состояние системы в будущем. Для регрессионных моделей он имеет, однако, более широкое значение. Как уже отмечалось, дан­ные могут не иметь временной структуры, но и в этих случаях вполне может возникнуть задача оценки значения зависимой переменной для некоторого набора независимых, объясняющих переменных, которых нет в исходных наблюдениях. Именно в этом смысле - как построе­ние оценки зависимой переменной - и следует понимать прогнозиро­вание в данной науке.

Проблема прогнозирования имеет много различных аспектов. Можно различать точечное и интервальное прогнозирование. В первом случае оценка - это конкретное число, во втором - интервал, в котором истинное значение переменной находится с заданным уровнем доверия. Кроме того, для временных рядов при нахождении прогноза существенно наличие или отсутствие корреляции по време­ни между ошибками.

При использовании построенной модели для прогнозирования делается предположение о сохранении в период прогнозирования существовавших ранее взаимосвязей переменных.

Для прогнозирования зависимой переменной на / шагов вперед необходимо знать прогнозные значения всех входящих в нее факто­ров. Их оценки могут быть получены МНК или на основе временных экстраполяционных моделей или заданы пользователем. Эти оценки подставляются в модель, и получаются прогнозные оценки.

Возникает вопрос, какие факторы влияют на ширину доверитель­ного интервала? Для того, чтобы определить область возможных зна­чений результативного показателя при рассчитанных значениях фак­торов, следует учитывать два возможных источника ошибок: ошибки, обусловленные рассеиванием наблюдений относительно линии рег­рессии и ошибки, обусловленные математическим аппаратом по­строения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности, величиной Se.

Ошибки второго рода обусловлены фиксацией численного значе­ния коэффициентов регрессии, в то время как они в действительности являются случайными, нормально распределенными.

Для линейной модели доверительный интервал рассчитывается следующим образом. Оценивается величина отклонения U от линии регрессии:

U(l) = Setкр ,         (4)

Vnp=XпрT(XT X)-1 Хпр, где Xпр =(X1(n+1),X21(n+1)),...,Xm1(n+1)).

Для модели парной регрессии формула (4) принимает вид:

 

.(5)

Коэффициент ta является табличным значением t -статистики Стьюдента при заданном уровне значимости g и числа наблюдений п, l -период прогнозирования.

Если исследователь задает вероятность попадания прогнозируе­мой величины внутрь доверительного интервала, равную 0,7 то   ta =1,05, если вероятность составляет 0,95, то ta =l,96, a при 0,99 ta =2,65.

Как видно из формулы (5), величина U прямо пропорционально зависит от точности модели Se, коэффициенту доверительной вероят­ности ta, степени удаления прогнозной оценки фактора X от среднего значения и обратно пропорциональна объему наблюдений.

В результате получаем следующий интервал прогноза для шага прогнозирования l:

• верхняя граница прогноза равна Y(n + l) + U/(l),

• нижняя граница прогноза равна Y(n + l) - U(l).

Если построенная регрессионная модель адекватна и прогнозные оценки факторов достаточно надежны, то с заданным уровнем значимости можно утверждать, что при сохранении сложившихся законо­мерностей развития прогнозируемая величина попадет в интервал, образованный нижней и верхней границами.

 

21. Основы корреляционного анализа.

Наиболее простой вид связи между переменными величинами -- это функциональная зависимость: y=f(x). Каждому значению x соответствует одно значение y.

В медицине и биологии чаще встречается более сложный вид зависимости, когда каждому x соответствует множество значений y -- это корреляционная зависимость.

Например: X -- рост, Y -- вес.

То есть имеем целое «облако» из точек в системе координат. Каждому значению xi соответствуем множество значений y, среднее арифметическое этих значений i называется условным средним.

Таким образом, среди множества точек с изменением x можно выделить точки, соответствующие условным средним y: y̅₁, y̅₂, y̅₃,….y̅n. Если соединить эти точки кривой линией, то получим линию регрессии, а соответствующая ей функция y=y̅(x) -- функция регрессии.

Точно также, при изменении значений y, каждому yi соответствует множество значений x, их средние арифметические i -- условные средние, соединив их кривой, получаем вторую линию регрессии, ей соответствует функция регрессии: x=x̅(y).

x̅,y̅ -- общие средние. Это средние арифметические, вычисленные по всем значениям x и y.

Следовательно, в отличии от функциональной зависимости, корреляционная зависимость характеризуется двумя линиями регрессии:

уравнение регрессии.

В настоящее время изучение различных корреляций является важным разделом многих биологических дисциплин, поэтому возникает потребность в количественном измерении корреляции. Для этого служит ряд методов, наиболее распространённым из которых является вычисление коэффициента корреляции -- это количественная характеристика связи (зависимости) между исследуемыми величинами.

Дисперсия суммы случайных величин. Корреляционный момент.

X и Y -- случайные величины.

(1) Z=X+Y -- их сумма.

(2) M[Z]=M[X]+M[Y]

Найдём D[Z]=D[X+Y], для этого вычтем из уравнения (1) уравнение (2):

(3) Z-M[Z]=X+Y-M[X]-M[Y]=(X-M[X])-(Y-M[Y])

Для сокращения записи обозначают:

Z-M[Z]=ΔZ

X-M[X]=ΔX Эти величины называют моментами.

Y-M[Y]=ΔY

Момент -- это отклонение каждого значения случайной величины от её математического ожидания.

Возведём уравнение (3) в квадрат: (Z-M[Z])2=((X-M[X])+(Y-M[Y]))2

ΔZ2=(ΔX+ΔY)2, тогда

ΔZ2=ΔX2+ΔY2+2·ΔX·ΔY -- это сумма квадратов отклонений.

Математическое ожидание от суммы квадратов отклонений это дисперсия:

D[Z]=D[X+Y]=M[ΔZ2]=M[ΔX2]+M[ΔY2]+2·M[ΔX·ΔY]=D[X]+D[Y]+2·M[ΔX·ΔY]

Принято обозначение: M[ΔX·ΔY]=K[X,Y] -- корреляционный момент.

Основное свойства корреляционного момента: если величины Xи Y независимы, то их корреляционный момент K[X,Y]=0. Обратное утверждение неверно.

Из последнего утверждения следует:

Теорема сложения дисперсий.

Если величины Xи Y независимы, то:

D[X+Y]= D[X]+D[Y]

Этой теоремой пользуются в теории погрешностей, при обработке результатов косвенных измерений. Так как входящие в расчётные формулы величины в большинстве случаев независимы, то подсчитывая среднюю квадратическую погрешность, суммируют квадраты всех их погрешностей.




Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: