Регрессионный анализ. Пусть дана выборка значений двумерной с

Пусть дана выборка значений двумерной с. в. (X,Y)={(x 1, y 1), (x 2, y 2) … (xn, yn)}, где n – объем двумерной выборки. Первым шагом в построении эмпирического уравнения регрессии между с. в. является графическое отображение значений двумерной с. в. в виде точек (x 1, y 1),..., (xn, yn) на плоскости X - Y, называемое диаграммой рассеяния (корреляционным полем) (рисунок 2).

а) б)
       
в) г)
Рисунок 2 – Диаграмма рассеяния, соответствующая линейной (а), экспоненциальной (б), параболической (в) регрессионной зависимости и отсутствию регрессионной зависимости (г)

Визуальный анализ диаграммы рассеяния и предметная постановка задачи (физический смысл рассматриваемых величин) позволяет сделать предположение о виде уравнения регрессии. Если предполагается, что зависимость между с. в. X и Y линейна (рисунок 2, а), то теоретическая модель регрессионной зависимости между с. в. задается уравнением (1) – теоретической моделью линейной регрессии Y на X:

M [ Y | X = x ] = b0 + b1 x, (1)

т. е. для каждого Х = хi имеется условное распределение с. в. Y со средним значением (b0 + b1 xi). Таким образом, для каждого i -го наблюдения справедлива следующая зависимость:

= b0 + b1 xi + ei, , (2)

где уii -е выборочное значение с. в. Y;

b0 – параметр линейной регрессии, требующий определения;

b1 – параметр линейной регрессии, требующий определения;

хii -е выборочное значение с. в. Х;

ei – ошибка, вызванная отклонением i -го наблюдения с. в. Y от условного среднего М [ Y | X = хi ]. Ошибки ei обусловливаются упрощением вида зависимости Y от X (без учёта всех влияющих факторов), а также возможной ошибкой в выборе формы регрессии (в действительности она может описываться другим уравнением).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: