Построение модели парной линейной регрессии методом наименьших квадратов

Пусть имеется набор наблюдений (х1,у1),(х2,у2)…(хк,ук)… (хn,yn).

В системе координат ХОУ построим точки (xi,yi) i=1,n.(построим график)

Пусть требуется найти такое уравнение у=f(x), чтобы исходные точки как можно ближе приближались к этой линии. Рассмотрим случай, когда f(x) – есть линейная функция.

Получим задачу. Найти функцию y=a+bx, которая наилучшим образом аппроксимирует (приближает)исходные данные.

Чтобы составить уравнение линейной регрессии будем для нахождения коэффициентов a и b использовать метод наименьших квадратов (МНК), который заключается в том, чтобы найти также a и b, что сумма квадратов расстояний фактических значений (yi) от расчётных (yi-c Крышечкой) была минимальной.

y(c крыш.)= a+bx

Крыш - регрессионная модель.

а=x(ср)y(ср)-y(ср)x(ср)/x в квадрате среднее – х среднее в квадрате

b=y(ср)-bx(ср) -формулы для нахождения коэффициентов a и b при методе наименьших квадратов.

Cov(x,y)= x(ср)y(ср)-y(ср)x(ср) – ковариация между переменными х и у.

Коэффициент b –называется коэффициентом регрессии. Он показывает на сколько единиц в среднем увеличивается (b>0) или уменьшается (b<0) результативный признак (у с кр.), если фактор х увеличить на одну единицу. Коэффициент а – не имеет экономического смысла.

Определение: Совокупность точек хi,yi i=1,n. Построенных в системе координат называется корреляционным полем. По виду корреляционного поля можно предполагать, какой зависимостью описывается связь между х и у. Вид зависимости между х и у, также можно определить аналитически, исходя из теории изучаемого явления и экспериментально.

Различают парную и множественную регрессию.

Парная регрессия описывает зависимость между двумя переменными х и у.

Множественная регрессия описывает зависимости между результативным признаком у и двумя и более факторами.

Различаю линейную у(с кр.)=а+вх регрессию и нелинейную регрессию.

Коэффициент корреляции.

Эконометрика ставит цель дать количественное описание экономических переменных, прежде всего опирается на регрессионный и корреляционные анализы. Суть регрессионного анализа заключается в установлении формы связи между переменными.

Суть корреляционного анализа установить тесноту связи между переменными.

Показатели тесноты между переменными, является коэффициент корреляции, обозначают rb,rxу, r=b*Sx/Sy

Свойства коэффициента:

1. R принадлежит [-1;1]

2. r>0, связь между х и у – прямая, т.е при увеличении х, увеличивается у.

 r<0, связь между х и у обратная, при увеличении х, уменьшается у.

3. r=0, связь отсутствует между х и у (Линейная отсутствует, но не линейная может быть), r=0, прямая параллельна оси ох.

4. r=+-1, связь функциональная между х и у. Точки корреляционного поля будут лежат на линии регрессии.

5. r(0;0,3)-слабая связь

r(0,3-0,7)-связь средняя

r(0,7-1)-связь сльная

Основные предпосылки регрессионного анализа. Теорема Гаусса-Маркова.

В силу воздействия неучтенных случайных факторов отдельные наблюдения у, будут в большей или меньшей степени отклоняться от функции регрессии f(x), в этом случае уравнение взаимосвязи двух переменных записывается в виде у(с кр.)=f(x) +E, E-случайная составляющая, возмущение, ошибка. Получаем, что зависимая переменная у, есть функция f(x) с точностью до E.

Предположим, что для оценки параметров линейной функции регрессии взята выборка содержащая n-наблюдений (xi, yi). Тогда линейная парная регрессионная модель имеет вид yi=альфа+ветта*xi+Ei.(*)

Оценкой модели по выборке является уравнение линейной регрессии. y(c ск.)=a+bx- коэффициент модели находится по методу наименьших квадратов.

Основные предпосылки регрессионного анализа (т.е при каких условиях мы можем строить регрессионную модель):

1.В модели (*) возмущение Ei является величиной случайной, а переменная xi-велечина неслучайная.

2. Математическое ожидание возмущения = 0. М(Ei)=0.

3. Дисперсия возмущения Д(Ei) постоянна для любого i.

4.Возмущение Ei и Ej, i не равно j, не коррелированны (не связан корреляционной зависимостью, т.е cov(Ei,Ej)=0

5. Возмущение Ei есть нормально распределённая случайная величина.

Если предпосылки выполняются, то модель называется классической нормальной линейной регрессионной моделью.

Воздействие не учтённых случайных факторов и ошибок наблюдений в модели (*) определяется с помощью дисперсии возмущения (дисперсия ошибок) или остаточная дисперсия.

Не смещённой оценкой этой дисперсии является выборочная остаточная дисперсия.

S2 ост = знак суммы(y(с кр.)-yi) 2 /n-2

y(с кр.)-yi – выборочная оценка возмущения Ei или остаток регрессии.

Теорема Гаусса-Маркова

Если регрессорная модель yi=альфа+ветта*xi+Ei удовлетворяет предпосылкам 1-4, то оценки a,b являются «лучшими», т.е имеют наименьшую дисперсию в классе всех линейных несмещённых оценок. Таким образом, оценки a и b являются в определённом смысле наиболее эффективными линейными оценками параметров альфа и бета.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: