Простая модель линейной регрессии

Существует или нет линейная связь между двумя переменными x, y. Проводим случайную выборку. При значениях x1, x2, …, xn мы наблю­даем значения y1, y2, …, yn соответственно. На плоскости O xy отметим точки с координатами (x1, y1), (x2, y2), …, (xn, y2n).

Предположим, что точки группируются вокруг некоторой прямой линии

y = a + bx.

Тогда:

Точки не находятся точно на линии y = a + bx. Но это неудиви­тельно. Ведь помимо x на поведение y оказывают влияние и другие факторы. Дальнейший анализ полученного уравнения позволяет сказать, насколько сильно влияние неучтенных факторов, действи­тельно ли модель линейна и т. д. На переменные x, y накладывается ряд условий. Для описания природы связи используется термин «ре­грессия». Коэффициент b называется показателем наклона линии ли­нейной регрессии.

Пример 1. Изучается зависимость себестоимости единицы из­делия (y, тыс. руб.) от величины выпуска продукции (x, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал n = 5 предприятий и получил следующие результаты (2-й и 3-й столбцы). Полагая, что между переменными x, y имеет место линейная за­висимость, определим выборочное уравнение линейной регрессии. Заполним таблицу.

Номер x y x 2 ху
    1,9   3,8
    1,7   5,1
    1,8   7,2
    1,6    
    1,4   8,4
Сумма   8,4   32,5

Поясним, как заполняется таблица. В 4-м столбце указаны квад­раты соответствующих чисел 2-го столбца. Каждое число 2-го столб­ца умножаем на соответствующее число 3-го столбца и результат пи­шем в 5-м столбце. В последней строке указана сумма чисел соответствующего столбца.

Замечание. Вместо вычислений коэффициентов a и b по форму­лам можно воспользоваться соответственно статистическими функ­циями ОТРЕЗОК (изв_знач_ y; изв_знач_ x) и НАКЛОН (изв_знач_ y; изв_знач_ x) мастера функций fx пакета Excel. Здесь изв_знач_ y и изв_знач_ x – это ссылки на ячейки, содержащие значения пере­менных y и x соответственно.

Обозначим через и средние значения пере­менных y и x соответственно.

ОШИБКИ

Проводим случайную выборку. При значениях x1, x2, …, xn мы на­блюдаем значения y1, y2, …, yn соответственно. Получено уравне­ние = a + bx. Если вместо х подставить в это уравнение значения x1, x2, …, xn, то будут получены значения 1, 2, …, n, которые, вообще говоря, будут отличаться от y1, y2, …, yn. Разница yi - i, = еi называет­ся ошибкой (остатком, отклонением). Значения коэффициентов a и b в уравнении y = a + bx, которые рассчитывались по приведенным в пункте 1 формулам, подбирались так, чтобы минимизировать сумму . Говорят, что они получены методом наименьших квадратов (МНК).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: