Если точки (xi,yi) на графике рассеивания близко располагаются к некоторой кривой (прямой), такая кривая называется линией регрессии. Иногда ее можно представить в математической форме: Y=f(X).
Общая проблема подгонки математической кривой к статистическим данным решается корреляционным анализом и используется в целях прогнозирования.
Поскольку в общем случае точки на графике имеют отклонения (большие или малые) от прямой линии, линейное уравнение можно записать только для средней величины:
`y = a0 + a1x, (2.42)
где `y - математическое ожидание случайной величины Y в зависимости от конкретного значения X.
Формула (2.42) представляет собой уравнение регрессии Y по X, или корреляционное уравнение.
Можно записать уравнение регрессии для X по Y:
`x = b0 + b1y. (2.43)
Оба эти уравнения на графике рассеивания изображаются прямыми линиями (см. рис.2.14). На этом графике видно, что в общем случае между линиями прямой и обратной регрессии имеется некоторый угол j. В предельных случаях:
если rxy=1, то j = 0;
если rxy=0, то j = 90°.
|
|
Для нахождения коэффициентов a и b используют метод наименьших квадратов. Он сводится к следующему.
n Для данного статистического ряда строится система нормальных уравнений. Система содержит столько уравнений, сколько случайных величин связано в одном наблюдении. Для двух (пары) случайных величин система имеет вид:
n n
a0n + a1åxi = åyi ü
i=1 i=1
ý 2.44
n n n
a0åxi + a1åxi2 = åxiyi þ
i=1 i=1 i=1
n Система решается относительно неизвестных a0 и a1 (методом подстановки или любым другим подходящим методом).
n Полученные коэффициенты a0 и a1 подставляются в уравнение регрессии.
Пример 2.17. Для определения выработки портовых рабочих за смену произведено статистическое наблюдение, результаты которого оформлены в виде трех переменных длиной по 50 значений:
INTEN – выработка одного рабочего (тонн в смену);
KMECH – коэффициент механизации труда бригады (%);
STORG – коэффициент складирования (%).
С помощью СТАТГРАФ-а (SG)найти уравнения регрессии переменной INTEN по KMECH и переменной INTEN по STORG, а также коэффициент корреляции rKI переменной KMECH по INTEN и коэффициент корреляции rSI переменной STORG по INTEN.