Линейная регрессия находит широкое применение в эконометрике ввиду четкой экономической интерпретации ее параметров.
Параметризация модели осуществляется следующим образом. Линейная регрессия сводится к нахождению уравнения вида:
(3)
(4)
Уравнение вида
(3) позволяет по заданным значениям фактора
находить теоретические значения результативного признака, подставляя в него фактические значения фактора
.
Информационный этап заключается в формировании массива исходных (фактических, эмпирических, реальных) данных хi и уi.
На этапе идентификации находят численные значения параметров
и
. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров
и
, при которых сумма квадратов отклонений фактических значений результативного признака
от теоретических
минимальна:
. (5)
Т.е. из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 1.):

Рисунок 1.1 - Линия регрессии с минимальной дисперсией остатков.
После несложных преобразований, получим следующую систему линейных уравнений для оценки параметров
и
:
(6)
Решая систему уравнений (6), найдем искомые оценки параметров
и
. Можно воспользоваться следующими готовыми формулами, которые следуют непосредственно из решения системы (6):
, (7)
, (8)
где
– дисперсия признака
, которая рассчитывается по формулам (9.1), (10), (13) или по формулам (9.2), (10).
, (9.1)
, (9.2)
, (10)
, (11)
, (12)
(13)
Следует отметить, что в данных формулах используются фактические значения массивов данных хi и уi.
Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.
Параметр
называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу.
На этапе верификации оценивают качество полученной модели и ее пригодность для прогноза. Для этого необходимо:
- оценить тесноту связи между фактором и результатом;
- оценить качество подбора линейной функции;
- оценить значимость уравнения регрессии в целом;
- оценить значимость отдельных параметров уравнения регрессии.
Для оценки тесноты связи между фактором и результатом для линейной регрессии используют линейный коэффициент корреляции
, который можно рассчитать по следующим формулам:
, (14)
Между коэффициентами b и
существует следующая зависимость:
если b > 0, то r > 0,
если b < 0, то r < 0.
Линейный коэффициент корреляции находится в пределах:
. Чем ближе абсолютное значение
к единице, тем сильнее линейная связь между факторами (при
имеем строгую функциональную зависимость).
Если
, то это может означать:
- отсутствие связи между признаками;
- наличие нелинейной формы связи.
Интерпретация значений
:
если |
| =1 → связь тесная,
если r ≈ 0 → связи нет, или
→ связь нелинейная.
Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции
, называемый коэффициентом детерминации.
Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной
от среднего значения
раскладывается на две части – «объясненную» и «необъясненную» (18):
, (18)
где
– общая сумма квадратов отклонений;
– сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);
– остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов (необъясненная).
Схема дисперсионного анализа имеет вид, представленный в таблице 1.2 (
– число наблюдений,
– число параметров при переменной
).
Таблица 1.2 – Схема дисперсионного анализа
| Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Дисперсия на одну степень свободы |
| Общая | | | |
| Факторная | | | |
| Остаточная | | | |
Коэффициент детерминации характеризует долю дисперсии результативного признака
, объясняемую регрессией, в общей дисперсии результативного признака:
, (15)
где
– остаточная дисперсия результативного признака (не объясненная уравнением);
– общая дисперсия результативного признака.
Остаточная дисперсия результативного признака (не объясненная уравнением) находится по формуле (16):
, (16)
Общая дисперсия результативного признака находится по формуле (17.1):
, (17)
Соответственно величина
характеризует долю дисперсии
, вызванную влиянием остальных, не учтенных в модели, факторов.
Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y.
Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации:
. Альтернативная ей гипотеза о значимости уравнения — гипотеза о неравенстве нулю параметров регрессии.
Оценка значимости уравнения регрессии в целом производится на основе
- критерия Фишера, созданного на основе теории дисперсионного анализа. Если расчетное значение Fфакт с
и
степенями свободы, где m – количество факторов, включенных в модель, больше табличного (Fтабл) при заданном уровне значимости, то модель считается значимой.
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину
-критерия Фишера:
, (19)
Фактическое значение
-критерия Фишера (19) сравнивается с табличным значением
при уровне значимости
и степенях свободы
и
. При этом, если фактическое значение
-критерия больше
, то гипотеза о статистической незначимости уравнения в целом отклоняется.
Для парной линейной регрессии
, поэтому
-критерий можно определить по формуле (20):
, (20)
Величина
-критерия связана с коэффициентом детерминации
, и в линейной регрессии ее можно рассчитать по следующей формуле (21):
, (21)
Значимость отдельных параметров уравнения оценивается с помощью t -статистики по формулам:
, (22)
, (23)
, (24)
где
, b, rxy – параметры уравнения регрессии,
,
,
– стандартные ошибки соответствующих параметров;
,
,
– фактические значения t-статистики или критерия Стьюдента по каждому параметру соответственно.
Стандартная ошибка коэффициента регрессии
определяется по формуле (25):
, (25)
где
– остаточная дисперсия на одну степень свободы.
Стандартная ошибка параметра
определяется по формуле (26):
. (26)
Стандартная ошибка параметра rxy определяется по формуле (27):
, (27)
Для оценки существенности каждого параметра фактическое значение
-критерия Стьюдента, определённое по формулам (22), (23), (24) сравнивается с табличным значением при определенном уровне значимости
и числе степеней свободы
. Если
-критерий фактический больше
-критерия табличного, то гипотеза о статистической незначимости данного параметра отклоняется.
Существует связь между
-критерием Стьюдента и
-критерием Фишера:
, (28)
Таким образом, проверка гипотез о незначимости коэффициента регрессии и коэффициента корреляции проводится одинаково. Если коэффициент регрессии статистически значимый, то коэффициент корреляции тоже статистически значимый.
Для построения прогноза по уравнению регрессии необходимо подставить в уравнение
соответствующее значение
. Таким образом, определяется
как точечный прогноз у при
.
Однако точечный прогноз очень ненадежен. Вероятность того, что реальное значение у совпадет с прогнозным
, очень маленькая, практически нулевая. Поэтому для повышения надежности прогноза определяют доверительный интервал прогноза по формуле (29):
(30)
где
– средняя ошибка прогноза при заданной степени вероятности.
Среднюю ошибку прогноза можно определить по формуле (30):
, (31)
где
– стандартная ошибка у;
– задается самостоятельно, в соответствии со степенью свободы и желаемой вероятностью 1-α.
Стандартная ошибка
определяется по формуле (31);
(32)
Таким образом, можно сделать вывод, что при х = хp,
попадает в интервал
с вероятностью 1-α.
Аналогично определяется интервал допустимых значений для коэффициента корреляции b.