Проверка качества уравнения регрессии

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качества уравнения регрессии, которое оценивается по тому, как хорошо полученное уравнение регрессии согласуется с экспериментальными данными. Другими словами, насколько широко рассеяны точки наблюдений относительно линии регрессии. Очевидно, если все точки лежат на построенной прямой, то регрессия Y на Х идеально объясняет поведение зависимой переменной. Но в реальных условиях такая ситуация практически не встречается. Обычно поведение Y лишь частично объясняется влиянием переменной Х.

Суммарной мерой общего качества уравнения регрессии (соответствия уравнения статистическим данным) является коэффициент детерминации R². В случае парной регрессии коэффициент детерминации будет совпадать с квадратом коэффициента корреляции. В общем случае коэффициент детерминации рассчитывается по формуле:

следует, что

Слагаемое определяет долю разброса зависимой переменной, необъясненную регрессией. Тогда R² показывает долю разброса Y, объясненную моделью регрессии.

Из проведенных рассуждений следует, что в общем случае справедливо соотношение . Чем теснее линейная связь между Y и Х, тем ближе R² к 1.

7. Интервальный прогноз для y*

Часто уравнение регрессии используют для определения прогнозного значения , зная значение . Это делается путем подстановки в уравнение регрессии вместо х значения. Однако в большинстве случаев точечный прогноз дополняется интервальным. Задается уровень надежности и рассчитывается доверительный интервал для прогнозного значения y^*.

Стандартная ошибка для y_p определяется по формуле

Рассмотренная формула стандартной ошибки предсказываемого среднего значения y при заданном значении x_k характеризует ошибку положения линии регрессии. Величина стандартной ошибки достигает минимума при и возрастает по мере того, как «удаляется» от в любом направлении. Иными словами, чем больше разность между x_k и , тем больше ошибка , с которой предсказывается среднее значение y для заданного значения x_k. Можно ожидать наилучшие результаты прогноза, если признак-фактор x находится в центре области наблюдения x и нельзя ожидать хороших результатов прогноза при удалении x_k от . Если же значение x_k оказывается за пределами наблюдаемых значений, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько x_k откланяется от области наблюдаемых значений фактора x.

Для рассмотренного примера

x	y	yp	(y-yp)^2	(x-xсp)^2	m_y	y min	y max
		31,05263	1,108033	4,5918367	5,4569583	17,0251	45,08017
		67,89474	4,432133	1,3061224	3,7216146	58,32804	77,46144
		141,5789	70,91413	0,7346939	3,3287133	133,0222	150,1357
		104,7368	22,43767	0,0204082	2,7600233	97,64199	111,8317
		178,4211	70,91413	3,4489796	4,9232334	165,7655	191,0766
		104,7368	22,43767	0,0204082	2,7600233	97,64199	111,8317
		141,5789	70,91413	0,7346939	3,3287133	133,0222	150,1357
3,142857			263,158	10,857143
x cp		y cp	SS ост
		S^2	52,63158
		S	7,254763

2 3 4 5 6 7 8

Подборка статей по вашей теме: