Пусть имеется набор наблюдений (х1,у1),(х2,у2)…(хк,ук)… (хn,yn).
В системе координат ХОУ построим точки (xi,yi) i=1,n.(построим график)
Пусть требуется найти такое уравнение у=f(x), чтобы исходные точки как можно ближе приближались к этой линии. Рассмотрим случай, когда f(x) – есть линейная функция.
Получим задачу. Найти функцию y=a+bx, которая наилучшим образом аппроксимирует (приближает)исходные данные.
Чтобы составить уравнение линейной регрессии будем для нахождения коэффициентов a и b использовать метод наименьших квадратов (МНК), который заключается в том, чтобы найти также a и b, что сумма квадратов расстояний фактических значений (yi) от расчётных (yi-c Крышечкой) была минимальной.
y(c крыш.)= a+bx
Крыш - регрессионная модель.
а=x(ср)y(ср)-y(ср)x(ср)/x в квадрате среднее – х среднее в квадрате
b=y(ср)-bx(ср) -формулы для нахождения коэффициентов a и b при методе наименьших квадратов.
Cov(x,y)= x(ср)y(ср)-y(ср)x(ср) – ковариация между переменными х и у.
Коэффициент b –называется коэффициентом регрессии. Он показывает на сколько единиц в среднем увеличивается (b>0) или уменьшается (b<0) результативный признак (у с кр.), если фактор х увеличить на одну единицу. Коэффициент а – не имеет экономического смысла.
|
|
Определение: Совокупность точек хi,yi i=1,n. Построенных в системе координат называется корреляционным полем. По виду корреляционного поля можно предполагать, какой зависимостью описывается связь между х и у. Вид зависимости между х и у, также можно определить аналитически, исходя из теории изучаемого явления и экспериментально.
Различают парную и множественную регрессию.
Парная регрессия описывает зависимость между двумя переменными х и у.
Множественная регрессия описывает зависимости между результативным признаком у и двумя и более факторами.
Различаю линейную у(с кр.)=а+вх регрессию и нелинейную регрессию.
Коэффициент корреляции.
Эконометрика ставит цель дать количественное описание экономических переменных, прежде всего опирается на регрессионный и корреляционные анализы. Суть регрессионного анализа заключается в установлении формы связи между переменными.
Суть корреляционного анализа установить тесноту связи между переменными.
Показатели тесноты между переменными, является коэффициент корреляции, обозначают rb,rxу, r=b*Sx/Sy
Свойства коэффициента:
1. R принадлежит [-1;1]
2. r>0, связь между х и у – прямая, т.е при увеличении х, увеличивается у.
r<0, связь между х и у обратная, при увеличении х, уменьшается у.
3. r=0, связь отсутствует между х и у (Линейная отсутствует, но не линейная может быть), r=0, прямая параллельна оси ох.
4. r=+-1, связь функциональная между х и у. Точки корреляционного поля будут лежат на линии регрессии.
|
|
5. r(0;0,3)-слабая связь
r(0,3-0,7)-связь средняя
r(0,7-1)-связь сльная
Основные предпосылки регрессионного анализа. Теорема Гаусса-Маркова.
В силу воздействия неучтенных случайных факторов отдельные наблюдения у, будут в большей или меньшей степени отклоняться от функции регрессии f(x), в этом случае уравнение взаимосвязи двух переменных записывается в виде у(с кр.)=f(x) +E, E-случайная составляющая, возмущение, ошибка. Получаем, что зависимая переменная у, есть функция f(x) с точностью до E.
Предположим, что для оценки параметров линейной функции регрессии взята выборка содержащая n-наблюдений (xi, yi). Тогда линейная парная регрессионная модель имеет вид yi=альфа+ветта*xi+Ei.(*)
Оценкой модели по выборке является уравнение линейной регрессии. y(c ск.)=a+bx- коэффициент модели находится по методу наименьших квадратов.
Основные предпосылки регрессионного анализа (т.е при каких условиях мы можем строить регрессионную модель):
1.В модели (*) возмущение Ei является величиной случайной, а переменная xi-велечина неслучайная.
2. Математическое ожидание возмущения = 0. М(Ei)=0.
3. Дисперсия возмущения Д(Ei) постоянна для любого i.
4.Возмущение Ei и Ej, i не равно j, не коррелированны (не связан корреляционной зависимостью, т.е cov(Ei,Ej)=0
5. Возмущение Ei есть нормально распределённая случайная величина.
Если предпосылки выполняются, то модель называется классической нормальной линейной регрессионной моделью.
Воздействие не учтённых случайных факторов и ошибок наблюдений в модели (*) определяется с помощью дисперсии возмущения (дисперсия ошибок) или остаточная дисперсия.
Не смещённой оценкой этой дисперсии является выборочная остаточная дисперсия.
S2 ост = знак суммы(y(с кр.)-yi) 2 /n-2
y(с кр.)-yi – выборочная оценка возмущения Ei или остаток регрессии.
Теорема Гаусса-Маркова
Если регрессорная модель yi=альфа+ветта*xi+Ei удовлетворяет предпосылкам 1-4, то оценки a,b являются «лучшими», т.е имеют наименьшую дисперсию в классе всех линейных несмещённых оценок. Таким образом, оценки a и b являются в определённом смысле наиболее эффективными линейными оценками параметров альфа и бета.