Мера оценки отклонений – метод наименьших квадратов (МНК)

Итак, мы располагаем некоторой таблицей данных {xi,yi} (набором точек на плоскости Pi(xi,yi)), наша цель провести на плоскости прямую таким образом, чтобы она была максимально близка к нашему набору точек.

Пусть уравнение такой прямой имеет вид:  – здесь мы через обозначили значения на модельной прямой, мы пометили их знаком «^», чтобы отличать от полученных опытным путём значений yi. Как только мы проведем любую прямую, у нас в каждой точке появятся отклонения (ошибки модели, их называют также ошибками аппроксимации) εi = yi, наша задача состоит теперь в том, чтобы так подобрать коэффициенты модели b1 и b2, чтобы минимизировать отклонения в совокупности. Проблема в том, как оценить всю совокупность отклонений.

Достаточно очевидно, что сумма отклонений не есть подходящая мера. Ведь достаточно провести горизонтальную прямую на уровне среднего значения , чтобы сумма отклонений стала равна нулю, однако такую прямую трудно считать хорошей моделью. Тут дело в том, что положительные и отрицательные отклонения при таком подходе взаимно гасят друг друга, а наша цель не допустить больших отклонений модели от опытных данных независимо от знака этих отклонений.

Чтобы уничтожить влияние знака, разумно суммировать не сами отклонения εi, а их квадраты, т.е. минимизировать не , а . Принятие такого критерия оптимальности искомой прямой носит название метода наименьших квадратов (МНК), как мы увидим в дальнейшем такой подход действительно дает оптимальные результаты, при соблюдении некоторых условий, которые в реальности достаточно часто действительно выполнены.

 

Итак, мы можем теперь четко сформулировать задачу. Пусть в результате некоторых опытов мы располагаем набором из n данных для двух величин: {xi,yi}. Найти такие два коэффициента b1 и b2, чтобы сумма квадратов отклонений величин  от опытных значений yi была минимальной

          (2.2)

 

Обратим внимание, что в роли неизвестных тут у нас выступают именно параметры искомой прямой b1 и b2, ведь все значения {xi,yi} нам известны. Если мы подставим все величины, входящие в третью сумму в формуле (2.2), и выполним все арифметические действия, то увидим, что функция  представляет собой просто многочлен второй степени относительно b1 и b2. Чтобы найти его минимум нужно просто вычислить его частные производные по b1 и b2 и приравнять их нулю. Когда мы это сделаем, то получим два уравнения с двумя неизвестными. Решение этих уравнений дает следующий результат:

 

                           (2.3)

Это и есть выражение для коэффициентов линейной регрессии, которые дает метод наименьших квадратов (МНК).

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: