Парная (простая) линейная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной рассматривается как функция одной независимой (объясняющей) переменной x, т.е. это модель вида:
(2.1)
Так же y называют результативным признаком, а x признаком-актором. Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости. Практически в каждом отдельном случае величина y складывается из двух слагаемых:
(2.2)
где y – фактическое значение результативного признака;
- теоретическое значение результативного признака, найденное исходя из уравнения регрессии;
– случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. Случайная величина
называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.
Различают линейные и нелинейные регрессии.
Линейная регрессия:
.
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам. Например:
регрессии, нелинейные по объясняющим переменным:
- полиномы разных степеней
;
- равносторонняя гипербола
;
регрессии, нелинейные по оцениваемым параметрам:
- степенная
;
- показательная
;
- экспоненциальная
.
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических
минимальна, т.е.
(2.3)
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:
(2.4)
Можно воспользоваться готовыми формулами, которые вытекают непосредственно из решения этой системы:
(2.5)
где
- ковариация признаков x и y,
-дисперсия признака x и
.
(Ковариация – числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений этих случайных величин от их математических ожиданий. Дисперсия – характеристика случайной величины, определяемая как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания. Математическое ожидание – сумма произведений значений случайной величины на соответствующие вероятности.)
Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции
для линейной регрессии
:
(2.6)
и индекс корреляции
- для нелинейной регрессии 

где
– общая дисперсия результативного признака y;
– остаточная дисперсия, определяемая исходя из уравнения регрессии

Оценку качества построенной модели даст коэффициент (индекс) детерминации
(для линейной регрессии) либо
(для нелинейной регрессии), а также средняя ошибка аппроксимации.
Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:
(2.7)
Допустимый придел значений
- не более 10%.
Средний коэффициент эластичности
показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
(2.8)
После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров. Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера, которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – «объясненную» и «необъясненную»:

где
– общая сумма квадратов отклонений;
– сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);
– остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.
Схема дисперсионного анализа имеет вид, представленный в таблице 1.1 (n – число наблюдений, m – число параметров при переменной x).
Таблица 2.1
| Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Дисперсия на одну степень свободы |
| Общая | | n-1 | |
| Факторная | | m | |
| Остаточная | | n-m-1 | |
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду (напомним, что степени свободы – это числа, показывающие количество элементов варьирования, которые могут принимать произвольные значения, не изменяющие заданных характеристик). Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера:
.
Фактическое значение F -критерия Фишера сравнивается с табличным значением
при уровне значимости
и степенях свободы
и
. При этом, если фактическое значение F - критерия больше табличного, то признается статистическая значимость уравнения в целом.
Для парной линейной регрессии m =1, поэтому

Величина F -критерия связана с коэффициентом детерминации
, и ее можно рассчитать по следующей формуле:
(2.9)
Для оценки статистической значимости параметров регрессии и корреляции рассчитываются t -критерий Стьюдента и доверительные интервалы каждого из показателей. Оценка значимости коэффициентов регрессии и корреляции с помощью t -критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
(2.10)
Стандартные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
(2.11)
Сравнивая фактическое и критическое (табличное) значения t - статистики – tтабл и tфакт – делаем вывод о значимости параметров регрессии и корреляции. Если tтабл < tфакт то параметры a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтабл > tфакт, то признается случайная природа формирования a, b или rxy.
Для расчета доверительного интервала определяем предельную ошибку
для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Связь между F -критерием Фишера и t -статистикой Стьюдента выражается равенством
(2.12)
В прогнозных расчетах по уравнению регрессии определяется предсказываемое индивидуальное значение y0 как точечный прогноз при x = x0, т.е. путем подстановки в линейное уравнение
соответствующего значения x. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибки
(2.13)
где
, и построением доверительного интервал прогнозного значения
:
