Одна из важнейших целей моделирования заключается в прогнозировании поведения исследуемого объекта. Обычно термин «прогнозирование» используется в тех ситуациях, когда требуется предсказать состояние системы в будущем. Для регрессионных моделей он имеет, однако, более широкое значение. Как уже отмечалось, данные могут не иметь временной структуры, но и в этих случаях вполне может возникнуть задача оценки значения зависимой переменной для некоторого набора независимых, объясняющих переменных, которых нет в исходных наблюдениях. Именно в этом смысле - как построение оценки зависимой переменной - и следует понимать прогнозирование в данной науке.
Проблема прогнозирования имеет много различных аспектов. Можно различать точечное и интервальное прогнозирование. В первом случае оценка - это конкретное число, во втором - интервал, в котором истинное значение переменной находится с заданным уровнем доверия. Кроме того, для временных рядов при нахождении прогноза существенно наличие или отсутствие корреляции по времени между ошибками.
При использовании построенной модели для прогнозирования делается предположение о сохранении в период прогнозирования существовавших ранее взаимосвязей переменных.
Для прогнозирования зависимой переменной на / шагов вперед необходимо знать прогнозные значения всех входящих в нее факторов. Их оценки могут быть получены МНК или на основе временных экстраполяционных моделей или заданы пользователем. Эти оценки подставляются в модель, и получаются прогнозные оценки.
Возникает вопрос, какие факторы влияют на ширину доверительного интервала? Для того, чтобы определить область возможных значений результативного показателя при рассчитанных значениях факторов, следует учитывать два возможных источника ошибок: ошибки, обусловленные рассеиванием наблюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности, величиной Se.
Ошибки второго рода обусловлены фиксацией численного значения коэффициентов регрессии, в то время как они в действительности являются случайными, нормально распределенными.
Для линейной модели доверительный интервал рассчитывается следующим образом. Оценивается величина отклонения U от линии регрессии:
U(l) = Setкр , (4)
Vnp=XпрT(XT X)-1 Хпр, где Xпр =(X1(n+1),X21(n+1)),...,Xm1(n+1)).
Для модели парной регрессии формула (4) принимает вид:
.(5)
Коэффициент ta является табличным значением t -статистики Стьюдента при заданном уровне значимости g и числа наблюдений п, l -период прогнозирования.
Если исследователь задает вероятность попадания прогнозируемой величины внутрь доверительного интервала, равную 0,7 то ta =1,05, если вероятность составляет 0,95, то ta =l,96, a при 0,99 ta =2,65.
Как видно из формулы (5), величина U прямо пропорционально зависит от точности модели Se, коэффициенту доверительной вероятности ta, степени удаления прогнозной оценки фактора X от среднего значения и обратно пропорциональна объему наблюдений.
В результате получаем следующий интервал прогноза для шага прогнозирования l:
• верхняя граница прогноза равна Y(n + l) + U/(l),
• нижняя граница прогноза равна Y(n + l) - U(l).
Если построенная регрессионная модель адекватна и прогнозные оценки факторов достаточно надежны, то с заданным уровнем значимости можно утверждать, что при сохранении сложившихся закономерностей развития прогнозируемая величина попадет в интервал, образованный нижней и верхней границами.
21. Основы корреляционного анализа.
Наиболее простой вид связи между переменными величинами -- это функциональная зависимость: y=f(x). Каждому значению x соответствует одно значение y.
В медицине и биологии чаще встречается более сложный вид зависимости, когда каждому x соответствует множество значений y -- это корреляционная зависимость.
Например: X -- рост, Y -- вес.
То есть имеем целое «облако» из точек в системе координат. Каждому значению xi соответствуем множество значений y, среднее арифметическое этих значений y̅i называется условным средним.
Таким образом, среди множества точек с изменением x можно выделить точки, соответствующие условным средним y: y̅₁, y̅₂, y̅₃,….y̅n. Если соединить эти точки кривой линией, то получим линию регрессии, а соответствующая ей функция y=y̅(x) -- функция регрессии.
Точно также, при изменении значений y, каждому yi соответствует множество значений x, их средние арифметические x̅i -- условные средние, соединив их кривой, получаем вторую линию регрессии, ей соответствует функция регрессии: x=x̅(y).
x̅,y̅ -- общие средние. Это средние арифметические, вычисленные по всем значениям x и y.
Следовательно, в отличии от функциональной зависимости, корреляционная зависимость характеризуется двумя линиями регрессии:
уравнение регрессии.
В настоящее время изучение различных корреляций является важным разделом многих биологических дисциплин, поэтому возникает потребность в количественном измерении корреляции. Для этого служит ряд методов, наиболее распространённым из которых является вычисление коэффициента корреляции -- это количественная характеристика связи (зависимости) между исследуемыми величинами.
Дисперсия суммы случайных величин. Корреляционный момент.
X и Y -- случайные величины.
(1) Z=X+Y -- их сумма.
(2) M[Z]=M[X]+M[Y]
Найдём D[Z]=D[X+Y], для этого вычтем из уравнения (1) уравнение (2):
(3) Z-M[Z]=X+Y-M[X]-M[Y]=(X-M[X])-(Y-M[Y])
Для сокращения записи обозначают:
Z-M[Z]=ΔZ
X-M[X]=ΔX Эти величины называют моментами.
Y-M[Y]=ΔY
Момент -- это отклонение каждого значения случайной величины от её математического ожидания.
Возведём уравнение (3) в квадрат: (Z-M[Z])2=((X-M[X])+(Y-M[Y]))2
ΔZ2=(ΔX+ΔY)2, тогда
ΔZ2=ΔX2+ΔY2+2·ΔX·ΔY -- это сумма квадратов отклонений.
Математическое ожидание от суммы квадратов отклонений это дисперсия:
D[Z]=D[X+Y]=M[ΔZ2]=M[ΔX2]+M[ΔY2]+2·M[ΔX·ΔY]=D[X]+D[Y]+2·M[ΔX·ΔY]
Принято обозначение: M[ΔX·ΔY]=K[X,Y] -- корреляционный момент.
Основное свойства корреляционного момента: если величины Xи Y независимы, то их корреляционный момент K[X,Y]=0. Обратное утверждение неверно.
Из последнего утверждения следует:
Теорема сложения дисперсий.
Если величины Xи Y независимы, то:
D[X+Y]= D[X]+D[Y]
Этой теоремой пользуются в теории погрешностей, при обработке результатов косвенных измерений. Так как входящие в расчётные формулы величины в большинстве случаев независимы, то подсчитывая среднюю квадратическую погрешность, суммируют квадраты всех их погрешностей.