Простая модель линейной регрессии

Существует или нет линейная связь между двумя переменными x, y. Проводим случайную выборку. При значениях x₁, x₂, …, x_n мы наблюдаем значения y₁, y₂, …, y_n соответственно. На плоскости O xy отметим точки с координатами (x₁, y₁), (x₂, y₂), …, (x_n, y₂_n).

Предположим, что точки группируются вокруг некоторой прямой линии

y = a + bx.

Тогда:

Точки не находятся точно на линии y = a + bx. Но это неудивительно. Ведь помимо x на поведение y оказывают влияние и другие факторы. Дальнейший анализ полученного уравнения позволяет сказать, насколько сильно влияние неучтенных факторов, действительно ли модель линейна и т. д. На переменные x, y накладывается ряд условий. Для описания природы связи используется термин «регрессия». Коэффициент b называется показателем наклона линии линейной регрессии.

Пример 1. Изучается зависимость себестоимости единицы изделия (y, тыс. руб.) от величины выпуска продукции (x, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал n = 5 предприятий и получил следующие результаты (2-й и 3-й столбцы). Полагая, что между переменными x, y имеет место линейная зависимость, определим выборочное уравнение линейной регрессии. Заполним таблицу.

Номер	x	y	x ²	ху
		1,9		3,8
		1,7		5,1
		1,8		7,2
		1,6
		1,4		8,4
Сумма		8,4		32,5

Поясним, как заполняется таблица. В 4-м столбце указаны квадраты соответствующих чисел 2-го столбца. Каждое число 2-го столбца умножаем на соответствующее число 3-го столбца и результат пишем в 5-м столбце. В последней строке указана сумма чисел соответствующего столбца.

Замечание. Вместо вычислений коэффициентов a и b по формулам можно воспользоваться соответственно статистическими функциями ОТРЕЗОК (изв_знач_ y; изв_знач_ x) и НАКЛОН (изв_знач_ y; изв_знач_ x) мастера функций f_x пакета Excel. Здесь изв_знач_ y и изв_знач_ x – это ссылки на ячейки, содержащие значения переменных y и x соответственно.

Обозначим через и средние значения переменных y и x соответственно.

ОШИБКИ

Проводим случайную выборку. При значениях x₁, x₂, …, x_n мы наблюдаем значения y₁, y₂, …, y_n соответственно. Получено уравнение = a + bx. Если вместо х подставить в это уравнение значения x₁, x₂, …, x_n, то будут получены значения ₁, ₂, …, _n, которые, вообще говоря, будут отличаться от y₁, y₂, …, y_n. Разница y_i - _i, = е_i называется ошибкой (остатком, отклонением). Значения коэффициентов a и b в уравнении y = a + bx, которые рассчитывались по приведенным в пункте 1 формулам, подбирались так, чтобы минимизировать сумму . Говорят, что они получены методом наименьших квадратов (МНК).