Коэффициент корреляции

статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции

10. Проверка гипотезы о наличии линейной связи между зависимой и независимой переменной.

Приведенные ранее показатели качества подгонки не позволяют принять окончательного статического решения по пригодности РУ. Такие решения принимаются на основе стат.критериев. Одним из таких критериев является F-критерий (F статистика). После оценки свободного члена регрессии (а) и коэффициента регрессии (в) выдвигается гипотеза о том, что линейная связь между х и у не подтверждается.

Близкое к 0 значение этой суммы свидетельствует об отсутствии какой либо тенденции для у в связи с изменениями х. Если Fрасч>Fтабл, то гипотезу об отсутствии лин.связи отвергаем с вероятностью р.

Fтабл берется из таблицы распределения Фишера, для степеней свободы n1 и n2. n1=k, n2=n-2

k-количество факторов в модели

n- количество наблюдений.

Отдельно исследуется коэффициент регрессии, выдвигается гипотеза что Х влияет на У не существенно. Выдвинутая гипотеза равноценна тому что b=0 на всей генеральной совокупности.

Если наша гипотеза верна то t-статистика или t-критерий подчиняется t-распределению со степенью свободы n-2

. Где - стандартная ошибка коэффициента b.

Аналогично находим tтабл если tрасч >tтабл. То гипотезу что b=0 отвергаем, значит b не равен 0, если наоборот то принимаем гипотезу, t- статистика используется также при построении доверительного интервала для коэффициента т.е. b. Областью правдоподобных значений является (-t;t)

11. Проверка существенности влияния фактора на результативную переменную.

12. Общая процедура проверки выполнения условий для получения «хороших» оценок методом наименьших квадратов.

Метод наименьших квадратов дает «хорошие» оценки коэффициентов регрессии при выполнении некоторых условий. Эти условия касаются случайные компоненты .

Для однофакторной модели это след.условия:

1) 2) 3)

В многофакторной модели добавляются следующие условия:

4) это независимость факторов между собой т.е.

13. Выполнение предпосылки МНК о случайном характере остатков модели.

Метод наименьших квадратов дает «хорошие» оценки коэффициентов регрессии при выполнении некоторых условий. Эти условия касаются случайные компоненты .

Для однофакторной модели это след.условия:

1) 2) 3)

В многофакторной модели добавляются следующие условия:

4) это независимость факторов между собой т.е.

Условие:

1) при нарушении условия оценка параметров регрессионной модели является неэффективной. Графически нарушение этого условия можно изобразить:

Метод наименьших квадратов при отсутствии ошибок в расчетах всегда дает выражение данного условия.

2) - разброс точек на плоскости.

Нарушение условия 2) когда дисперсия случайной компоненты не является постоянной, можно на графике изобразить следующим образом:

Если остатки имеют постоянную дисперсию, то они называются гомаскедастичными, являются называются гомоскедастичностью. Если остатки непостоянны, то они называются гетероскедостичными, а явление называется гетероскедастичностью.

Гетероскедастичность приводит к тому, что коэффициенты регрессии не представляют собой лучшие оценки или не являются оценками с наименьшей дисперсией. Следовательно они не являются «хорошими» коэффициентами. Непостоянство дисперсий часто встречается в моделях нестационарной экономики(Рссия), когда в качестве исходных данных используется временные ряды стоимостных показателей. В пространстве выборках гетероскедастичность встречается когда анализируемые объекты не однородны по своему масштабу. Гетероскедичность ведет к тому что стандартные ошибки будут смещенными, решение о наличии гетероскедичности принимается на основе общей процедуры проверки гипотез. Один из критериев F-критерий

Данный F-критерий имеет F – распределение со степенями свободы

n1=n/2-k, n2=n/2-k

При этих степенях свободы находим Fтабл, сравнивая Fрасч с Fтабл

1) если Fрасч попадает в интервал то дисперсия пост-а

2) если Fр >Fт, то дисперсия уменьшается

3) если Fр <1/Fт то дисперсия увеличивается

14. Выполнение предпосылки МНК о нулевом математическом ожидании.

3)

Нарушение условия проявляются в том, что м/у ошибками разных наблюдений есть какая то зависимость. Графически нарушение этого условия можно представить:

Нарушение условия независимости остатков м/у собой называется автокорреляцией остатков, имеет место когда текущее значение уi. Нарушение 3-го условия независимости остатков делает модель неадекватной. Вызвано это тем что при наличии автокорелляции стандарт ошибки модели будут недооценены. И как следствие проверка значимости коэффициентов регрессии будет ненадежной. Проверку на наличие автокорелляции проводят на основе теста Дарвина-Уотсона (статистика критерий Д-У)

Данный критерий может принимать значение от 0 до 4. При проверке наличии автокорреляции на практике можно руководствоваться след. Простым правилом: расчетное значение D-W близкое к 2 свидетельствует об отсутствии автокорелляции, к 4 – об отсутствии, к 0- о положит. Автокорреляции.

Строгие решения принимаются из правил:

1) если то гипотеза об отсутствии автокорелляции отвергается.

2) если то гипотеза об отсут автокорел-и принимается

3) принимается гипотеза о том, что отрицательная автокорелляция

4) если то гипотеза о наличии автокорреляции не принимается и не отвергается.

15. Выполнение предпосылки МНК о гомоскедостичности остатков. Тест Голдфилда-Кванта.

Условие независимости факторов м/у собой.

Нарушение данного условия, когда факторы зависят друг от друга, называется мультиколлинеарностью. Нарушение условия 4 является нарушением одного из требований классической регрессии. Мультиколлинеарность проверяется на основе коэффициента корреляции

Для того чтобы мультиколлинеарности не было д.б.

Мультиколлениарность возникает из-за неисправного выбора списка объясняющих переменных или из за эконом.природы выбранных переменных.

Внешние признаками мультиколлениарности явл.следующие признаки:

1) наличие значений коэффициентов парной корреляции м/у объясняющими переменными, превышающих по модулю 0,75.

2) Наличие оценок коэффициентов регрессии, имеющих непрерывные знаки.

3) Существенные изменения значений коэффициентов регрессии при небольшом изменении исходных данных.

4) Наличие больших стандартных ошибок и малой статической значимости коэффициентов регрессии при общей значимости модели.

Для устранения мультиколлениарности существует несколько способов:

1. исключение из модели связанных м/у собой независимых переменных путем отбора наиболее существенных объясняющих переменных.

использование методов оценки коэффициентов, учитывающих мультиколлениарность

Явление гетероскедастичности возникает, как правило, при анализе неоднородных объектов. Например, при построении зависимости прибыли фирмы от размера основного фонда (или каких-либо других факторов) гетероскедастичность вызвана тем, что у больших фирм колебания прибыли будут выше, чем у малых.

МНК при наличии гетероскеда­стичности позволяет получить несмещенные оценки параметров модели, но оценка дисперсии ошибки, и, следовательно, границы доверительных интервалов оценок параметров модели и прогноза зависимой переменной будут неверными, т.к. они вычисляются на основании предположения гомоскедастичности ошибок.

Для проверки на гетероскедастичность существует большое число тестов. Мы остановимся на тесте Голдфельда-Квандта.

Тест Голдфелъда-Квандта применяется в том случае, ко­гда имеются предположения:

1. о прямой зависимости дисперсии σt, ошибки регрессии εt от величины некоторой независимой переменной X в наблюдении t;

2. случайный член εt, распределен нормально и не подвержен автокорреляции.

Алгоритм теста:

1. Упорядочивание n данных в выборке по величине независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2. Исключение с средних наблюдений в этом упорядочении в целях построения двух независимых "частных" регрессий по данным n' = (n-с)/2 в начале выборки и по данным n' = (n - с)/2 в конце выборки

3. Проведение двух независимых "частных" регрессий - первых n' и последних n' наблюдений и построение соответствующих остатков е1 и е2;

4. Вычисление сумм квадратов остатков "частных" регрессий: е11, е22. Если предположение относительно природы гегероскедастичности верно, то дисперсии ошибок регрессии в последних n' наблюдениях будут больше (меньше), чем в первых n' наблюдениях при прямой (обратной) пропорциональной зависимости между σt и Xt и это скажется на сумме квадратов остатков в рассматриваемых частных регрессиях. Поэтому в качестве теста на выявление гетероскедастичности остатков регрессии предлагается использовать статистику F, вид кото­рой определяется предположением зависимости между диспер­сией ошибок регрессии σt и регрессором Xt:

F = е11 / е22- в случае обратной пропорциональности

F = е22 / е11- в случае прямой пропорциональности.

Статистика F имеет распределение Фишера с (n'- k- 1) степенями свободы, где k- число объясняющих переменных в регрессионном уравнении. Если значение статистики превышает критически значение при определенном уровне значимости, то нулевая гипотеза Н0 об отсутствии гетероскедастичности отвергается.

Тест ранговой корреляции Голдфелда-Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсий ошибок регрессии от значений регрессоров и, следовательно, не представляют каких-либо способов устранения гетероскедастичности.

При использовании этого теста предполагается, что дисперсии ошибок регрессии представляют собой одну и ту же функцию от наблюдаемых значений регрессоров, т.е.

s2 = fi (xi), (1)

Чаще всего функция f выбирается квадратичной, что соответствует тому, что средняя квадратичная ошибка регрессии зависит от наблюдаемых значений регрессоров приближенно линейно. Гомоскедастичной выборке соответствует случай f = const.

16. Выполнение предпосылки МНК о гомоскедостичности остатков. Тест ранговой корреляции Спирмена.

При использовании данного теста

предполагается, что дисперсии отклонений

остатков будут монотонно изменятьcя

(увеличиваться или уменьшаться) с увеличением

фактора пропорциональности Z. Поэтому значения ei и zi будут коррелированы (возможно, нелинейно!).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: