Пусть дана выборка значений двумерной с. в. (X,Y)={(x 1, y 1), (x 2, y 2) … (xn, yn)}, где n – объем двумерной выборки. Первым шагом в построении эмпирического уравнения регрессии между с. в. является графическое отображение значений двумерной с. в. в виде точек (x 1, y 1),..., (xn, yn) на плоскости X - Y, называемое диаграммой рассеяния (корреляционным полем) (рисунок 2).
а) | б) | ||
в) | г) | ||
Рисунок 2 – Диаграмма рассеяния, соответствующая линейной (а), экспоненциальной (б), параболической (в) регрессионной зависимости и отсутствию регрессионной зависимости (г) |
Визуальный анализ диаграммы рассеяния и предметная постановка задачи (физический смысл рассматриваемых величин) позволяет сделать предположение о виде уравнения регрессии. Если предполагается, что зависимость между с. в. X и Y линейна (рисунок 2, а), то теоретическая модель регрессионной зависимости между с. в. задается уравнением (1) – теоретической моделью линейной регрессии Y на X:
M [ Y | X = x ] = b0 + b1 x, (1)
т. е. для каждого Х = хi имеется условное распределение с. в. Y со средним значением (b0 + b1 xi). Таким образом, для каждого i -го наблюдения справедлива следующая зависимость:
|
|
= b0 + b1 xi + ei, , (2)
где уi – i -е выборочное значение с. в. Y;
b0 – параметр линейной регрессии, требующий определения;
b1 – параметр линейной регрессии, требующий определения;
хi – i -е выборочное значение с. в. Х;
ei – ошибка, вызванная отклонением i -го наблюдения с. в. Y от условного среднего М [ Y | X = хi ]. Ошибки ei обусловливаются упрощением вида зависимости Y от X (без учёта всех влияющих факторов), а также возможной ошибкой в выборе формы регрессии (в действительности она может описываться другим уравнением).