Метод наименьших квадратов

Рассмотрим случай линейной регрессии. Требуется построить прямую линию, которая наиболее точно отображала изменения динамики за рассматриваемый период. Поскольку ряд исходных значений имеет колебания, то модель ряда будет содержать ошибки, которые нам и надо минимизировать.

Наиболее объективным с формальной точки зрения будет построение, основанное на минимизации суммы отрицательных и положительных отклонений исходных значений ряда от прямой линии, и, как следствие, наиболее используемой процедурой является минимизация суммы квадратов отклонений или метод наименьших квадратов (МНК) [12,17,27,35,42].

Использование метода предполагает соблюдение некоторых условий: остатки имеют математическое ожидание, равное нулю, и конечную дисперсию, подчинена нормальному закону распределения; отсутствие мультиколлинеарности.

Найдем оценку вектора , решив следующую экстремальную задачу:

Требуется найти такой вектор , при котором сумма квадратов остатков была бы минимальна:

Решением поставленной задачи является вектор, определяемый по формуле:

где - вектор значений зависимой переменной в измерениях;

- матрица базисных функций размерностью :

Приведем пример использования МНК для расчета параметров некоторых наиболее популярных моделей.

Так, для однофакторной линейной модели получаем:

, ,

Для этой модели также можно получить более простое решение:

, .

Для параболы имеем , .

Для логисты требуется предварительное возведение левой и правой частей уравнения в степень (-1), после чего матрица базисных функция и вектор выхода выглядит следующим образом:

, .

Для экспоненты и кривой Гомперца требуется предварительное логарифмирование, после проведения которого имеем:

, .

Одна из главных предпосылок МНК - отсутствие линейной зависимости между независимыми переменными. Мультиколлинеарность возникает тогда, когда существует высокая корреляция (но не функциональная связь) между двумя и более переменными. Опасность этого кроется в росте дисперсии коэффициента регрессии, а значит и в росте ошибки их оценивания. Проблема мультиколлинеарности является общей для многих методов корреляционного анализа. Если в анализ включено много переменных, то часто не сразу очевидно существование этой проблемы, и она может возникнуть только после того, как некоторые переменные будут уже включены в регрессионное уравнение. Тем не менее, если такая проблема возникает, это означает, что, по крайней мере, одна из независимых переменных является совершенно лишней при наличии остальных. Существует довольно много статистических индикаторов избыточности (толерантность, частные корреляции и др.), а также немало средств для борьбы с избыточностью [20].

Одним из методов, позволяющих построить модель в условиях мультиколлениарности, является г ребневая регрессия. Следствием мультиколлинеарности является обусловленность матрицы и бесконечное возрастание по этой причине дисперсии оценок линейной регрессии. Матрица регуляризуется путем добавления малого положительного числа к диагональным элементам: