Особенности эконометрического метода

Эконометрический метод складывался в преодолении следующих неприятностей, искажающих результаты применения классически статистических методов:

1) асимметричность связей;

2) мультиколлинеарность объясняющих переменных;

3) закрытость механизма связи между переменными в изолированной регрессии;

4) эффект гетероскедастичности, т.е. отсутствие нормального распределения остатков для регрессионной функции;

5) автокорреляция;

6) ложная корреляция;

7) наличие лагов.

Эконометрическое исследование заключается в решении следующих проблем:

1) качественный анализ связей экономических переменных – выделение зависимых и независимых переменных;

2) изучение соответствующего раздела экономической теории;

3) подбор данных;

4) спецификация формы связи между зависимыми и независимыми переменными;

5) оценка параметров модели;

6) проверка ряда гипотез о свойствах распределения вероятностей для случайной компоненты (гипотезы о средней дисперсии и ковариации);

7) анализ мультиколлинеарности объясняющих переменных, оценка ее статистической значимости, выявление переменных, ответственных за мультиколлинеарность;

8) введение фиктивных переменных;

9) выявление автокорреляции, лагов;

10) выявление тренда, циклической и случайной компонент;

11) проверка остатков на гетероскедастичность;

12) анализ структуры связей и построение системы одновременных уравнений;

13) проверка условия идентификации;

14) оценивание параметров системы одновременных уравнений (двухшаговый и трехшаговый метод наименьших квадратов, метод максимального правдоподобия);

15) моделирование на основе системы временных рядов: проблемы стационарности и коинтеграции;

16) построение рекурсивных моделей, авторегрессионных моделей;

17) проблема идентификации и оценивания параметров.

 

этапы эконометрического исследования можно указать:

1. Постановка проблемы.

2. Получение данных, анализ их качества.

3. Спецификация модели.

4. Оценка параметров.

5. Интерпретация результатов.

 

№2.

К простейшим показателям степени тесноты связи относят коэффициент корреляции знаков, который был предложен немецким ученым Г.Фехнером

 Этот показатель основан на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних.

na – число совпадений знаков отклонений индивидуальных величин от средней, nb – число несовпадений знаков отклонений, то коэффициент Фехнера

Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции (r).

При расчете этого показателя учитываются не только знаки отклонений индивидуальных значений признака от средней, но и сама величина таких отклонений, Т.е. соответственно для факторного и результативного признаков величины  и . Однако непосредственно сопоставлять между собой полученные абсолютные величины нельзя, так как сами признаки могут быть выражены в разных единицах (как это имеет место в представленном примере), а при наличии одних и тех же единиц измерения средние могут быть различны по величине. В этой связи сравнению могут подлежать отклонения, выраженные в относительных величинах, т.е. в долях среднего квадратического отклонения (их называют нормированными отклонениями). Так, для факторного признака будем иметь совокупность величин , а для результативного .

Для того чтобы на основе сопоставления рассчитанных нормированных отклонений получить обобщающую характеристику степени тесноты связи между признаками для всей совокупности, рассчитывают среднее произведение нормированных отклонений. Полученная таким образом средняя и будет являться линейным коэффициентом корреляции r.

                                              

При пользовании этой формулой отпадает необходимость вычислять отклонения индивидуальных значений признаков от средней величины, что исключает ошибку в расчетах при округлении средних величин.

Линейный коэффициент корреляции может принимать любые значения в пределах от –1 до +1. Чем ближе коэффициент корреляции по абсолютной величине к +1, тем теснее связь между признаками. Знак при линейном коэффициенте корреляции указывает на направление связи – прямой зависимости соответствует знак плюс, а обратный зависимости – знак минус.

Если с увеличением значений факторного признака х, результативный признак у имеет тенденцию к увеличению, то величина коэффициента корреляции будет находиться между 0 и 1. Если же с увеличением значений х результативный признак у имеет тенденцию к снижению, коэффициент корреляции может принимать значения в интервале от 0 до –1.

Квадрат коэффициента корреляции (r 2) носит название коэффициента детерминации. Для рассматриваемого примера его величина равна 0,6569, а это означает, что 65,69% вариации числа клиентов, воспользовавшихся услугами фирмы, объясняется вариацией затрат фирм на рекламу своих услуг.

Оценка значимости коэф кореляции

При большом объеме выборки из нормально распределенной совокупности можно считать распределение линейного коэффициента корреляции приближенно нормальным со средней, равной r и дисперсией

,                                                              (1.8)

откуда средняя квадратическая ошибка коэффициента корреляции:

,                                  

 

Доверительный интервал для коэффициента корреляции будет записан так:

,                                    (1.10)

где r ген – значение коэффициента корреляции в генеральной совокупности.

В нашем примере sr = 0,0787; ta (0,05, 18) = 2,1; D = 0,1654 и пределы коэффициента корреляции: от 0,6451 до 0,9759.

При малых объемах выборки и линейном коэффициенте корреляции, близким к 1, использование средней квадратической ошибки по формуле в качестве критерия существенности r оказывается невозможным в силу того, что распределение выборочного r может значительно отличаться от нормального.

2. Для малого объема выборочной совокупности используется тот факт, что величина

при условии r = 0, распределена по закону Стьюдента с (n –2) степенями свободы.

Полученную величину t расч сравнивают с табличным значением t -критерия (число степеней свободы равно n –2). Если рассчитанная величина превосходит табличную, то практически невероятно, что найденное значение обусловлено только случайными совпадениями x и y в выборке из генеральной совокупности, для которой действительное значение коэффициента корреляции равно нулю. Если же вычисленная величина меньше, чем табличная, то полагают, что коэффициент корреляции в генеральной совокупности в действительности равен нулю и соответственно эмпирический коэффициент корреляции существенно не отличается от нуля.

 

№3.

Коэффициенты корреляции, основанные на использовании рангов, были предложены К. Спирмэном и М.Кендэлом. Коэффициент корреляции рангов Спирмэна основан на рассмотрении разности рангов значений факторного и результативного признаков.

Формула коэффициента корреляции рангов Спирмэна, который обозначают r:

                                                         (1.11)

где di = xiyi – разность между рангами исходных переменных x и y.

Поскольку коэффициенты корреляции рангов могут изменяться в пределах от –1 до +1 (как и линейный коэффициент корреляции), по результатам расчетов коэффициента Спирмэна можно предположить наличие достаточно тесной прямой зависимости между x и y.

Существует специальная таблица предельных значений коэффициентов корреляции рангов Спирмэна при условии верности нулевой гипотезы об отсутствии корреляционной связи при заданном уровне значимости и определенном объеме выборочных данных.

По такой таблице находим, что при объеме выборки в 10 единиц (n = 10) и уровне значимости 5% (a = 0,05) критическая величина для рангового коэффициента корреляции составляет ± 0,6364. Это означает, что вероятность получить величину коэффициента r, превышающую критическое значение при условии верности нулевой гипотезы, будет менее 5%.

М.Кендэл предложил еще одну меру связи между переменными xi и yi – коэффициент корреляции рангов Кендэла – t:

, где S = P + Q.                                           (1.12)

Для вычисления t надо упорядочить ряд рангов переменной х, приведя его к ряду натуральных чисел. Затем рассматривают последовательность рангов переменной у

 

Для нахождения суммы S находят два слагаемых Р и Q. При определении слагаемого Р нужно установить, сколько чисел, находящихся справа от каждого из элементов последовательности рангов переменной у, имеют величину ранга, превышающую ранг рассматриваемого элемента. Так, например, первому значению в последовательности рангов переменной у, т.е. числу 2, соответствует 8 чисел (7, 6, 3, 4, 5, 9, 10, 8), которые превышают ранг 2; второму значению 1 соответствует также 8 чисел(7, 6, 3, 4, 5, 9, 10, 8); превышающих 1 и т.д. Суммируя полученные таким образом числа, мы получим слагаемое Р, которое можно рассматривать как меру соответствия последовательности рангов переменной у последовательности рангов переменных х. Для нашего примера Р = 35 (8+8+3+3+5+4+3+1).

Второе слагаемое Q характеризует степень несоответствия последовательности рангов переменной у последовательности рангов переменной х. Чтобы определить Q подсчитаем, сколько чисел, находящихся справа от каждого из членов последовательности рангов переменной у имеет ранг меньше, чем эта единица. Такие величины берутся со знаком минус.

В рассматриваемом примере Q = –10 (–1 –0 –4 –3 –0 –0 –0 –1 –1)

Следовательно, S = P + Q = 35 – 10 = 25.

Коэффициент корреляции рангов Кендэла в нашем примере равен:

.

Коэффициент Кендэла также изменяется в пределах от –1 до +1 и равен нулю при отсутствии связи между рядами рангов.

Вычисляем коэффициент ранговой корреляции Фехнера по формуле

.

 

№4.

 Сводится линейная регрессия к нахождению уравнения вида

.                                                       

Построение линейной регрессии сводится к оценке ее параметров – a и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

Этот метод позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака от расчетных (теоретических) минимальна:

.                                                         

система нормальных уравнений для оценки параметров a и b:

                                                    

.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу.

Знак при коэффициенте регрессии b показывает направление связи: при b > 0 – связь прямая, при b < 0 – обратная.

Формально а – значение у при х = 0. Если признак-фактор не имеет и не может иметь нулевого значения, то трактовка свободного члена а не имеет смысла. Параметр а может не иметь экономического содержания. Попытки экономически интерпретировать параметр а могут привести к абсурду, особенно при а < 0.

Интерпретировать можно лишь знак при параметре а. Если а > 0, то относительное изменение результата происходит медленнее, чем изменение фактора

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции rxy.

Как известно, линейный коэффициент корреляции находится в границах –1 £ rxy £ 1. Если коэффициент регрессии b > 0, то 0 £ rxy £ 1, и, наоборот, при b < 0 –1 £ rxy £ 0.

,

Коэффициент детерминации характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака:

.                                                       (2.10)

Соответственно величина 1 – r2 характеризует долю дисперсии у, вызванную влиянием остальных не учтенных в модели факторов.

Величина коэффициента детерминации является одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов и, следовательно, линейная модель хорошо аппроксимирует исходные данные, и ею можно воспользоваться для прогноза значений результативного признака.

 

Линейный коэффициент корреляции по содержанию отличается от коэффициента регрессии. Выступая показателем силы связи, коэффициент регрессии b на первый взгляд может быть использован как измеритель ее тесноты.

лин коэффициент корреляции:

Его величина выступает в качестве стандартизованного коэффициента регрессии и характеризует среднее в сигмах (sy)изменение результата с изменением фактора на одну sx.

Линейный коэффициент корреляции как измеритель тесноты линейной связи признаков логически связан не только с коэффициентом регрессии b, но и с коэффициентом эластичности, который является показателем силы связи, выраженным в процентах. При линейной связи признаков х и у средний коэффициент эластичности в целом по совокупности определяется как ,т. е. его формула по построению близка к формуле линейного коэффициента корреляции .

Несмотря на схожесть этих показателей, измерителем тесноты связи выступает линейный коэффициент корреляции (rxy)а коэффициент регрессии (bу/х)и коэффициент эластичности (Э у / х ) – показатели силы связи: коэффициент регрессии является абсолютной мерой, ибо имеет единицы измерения, присущие изучаемым признакам у и х, а коэффициент эластичности – относительным показателем силы связи, потому что выражен в процентах.

№5.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера.

Непосредственному расчету F-критерия предшествует анализ дисперсии.

;

;

.

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы S 2 и вытекающую из нее стандартную ошибку S.

         .

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -отношения, т.е.критерий F:

                                                               

F -статистика используется для проверки нулевой гипотезы H 0: S 2факт = S 2.

Если нулевая гипотеза H 0 справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Если H 0 несправедлива, то факторная дисперсия превышает остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F -отношений при разных уровнях значимости нулевой гипотезы и различном числе степеней свободы. Табличное значение F -критерия – это максимальная величина отношений дисперсий, которая может иметь место при случайном расхождении их для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F -отношения признаётся достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи:

F факт > F табл, H 0 отклоняется.

Если же величина F окажется меньше табличной, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым: F факт < F табл, H 0 не отклоняется.

Величина F -критерия связана с коэффициентом детерминации r 2.

Тогда значение F -критерия можно выразить следующим образом:

.

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: mb и ma.

Для оценки значимости коэффициента регрессии его величину сравнивают с его стандартной ошибкой, т.е. определяют фактическое значение t -критерия Стьюдента:

,

которое затем сравнивают с табличным значением при определенном уровне значимости a и числе степеней свободы (n – 2).

Поскольку коэффициент регрессии b в эконометрических исследованиях имеет четкую экономическую интерпретацию, доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, – 10 £ b £ 40. Такого рода запись показывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже нуль, чего не может быть.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции mr:

.                                                                              (2.19)

Фактическое значение t -критерия Стьюдента определяется как

.                                                                  (2.20)

Данная формула свидетельствует, что в парной линейной регрессии t 2 r = F, ибо, как уже указывалось,

.

Кроме того, t 2 b = F, следовательно, t 2 r = t 2 b.

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о значимости линейного уравнения регрессии.

 

№6. Интервальный прогноз на основе линейного уравнения регрессии

В прогнозных расчетах по уравнению регрессии определяется предсказываемое yr значение как точечный прогноз  при xр = xk. т.е. путем подстановки в линейное уравнение регрессии   = a + b × x соответствующего значения x. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибки , т.е.  и соответственно мы получаем интервальную оценку прогнозного значения y *:

.

Отсюда следует, что стандартная ошибка  зависит от ошибки  и ошибки коэффициента регрессии b, т.е.

                                                    (2.23)

Из теории выборки известно, что . Используя в качестве оценки s 2 остаточную дисперсию на одну степень свободы S 2, получим формулу расчета ошибки среднего значения переменной y:

.                                                           (2.24)

Ошибка коэффициента регрессии, как уже было показано, определяется формулой

.

Считая, что прогнозное значение фактора xp = xk, получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, т.е. :

.                 (2.25)

Соответственно  имеет выражение:

.                               (2.26)

Рассмотренная формула стандартной ошибки предсказываемого среднего значения y при заданном значении xk характеризует ошибку положения линии регрессии. Величина стандартной ошибки  достигает минимума при xk = x и возрастает по мере того, как «удаляется» от x в любом направлении. Иными словами, чем больше разность между xk и x, тем больше ошибка , с которой предсказывается среднее значение y для заданного значения xk. Можно ожидать наилучшие результаты прогноза, если признак-фактор x находится в центре области наблюдения x и нельзя ожидать хороших результатов прогноза при удалении xk от x. Если же значение xk оказывается за пределами наблюдаемых значений, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько xk откланяется от области наблюдаемых значений фактора x.

Однако фактические значения y варьируют около среднего значения . Индивидуальные значения y могут отклоняться от  на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S. Поэтому ошибка предсказываемого индивидуального значения y должна включать не только стандартную ошибку , но и случайную ошибку S.

Средняя ошибка прогнозируемого индивидуального значения y составит:

                           (2.27)

При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора x. Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также анализа динамики данного фактора.

Рассмотренная формула средней ошибки индивидуального значения признака  может быть использована также для оценки существенности различия предсказываемого значения и некоторого гипотетического значения.

№7

Различают два класса нелинейных регрессий:

– регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

– регрессии, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции:

– полиномы разных степеней:

– равносторонняя гипербола

К нелинейным регрессиям по оцениваемым параметрам относятся функции:

– степенная

– показательная

– экспоненциальная

При выборе вида зависимости между двумя признаками нагляден графический метод, особенно для монотонных (не имеющих максимумы и минимумы) зависимостей.

Таблица 2.3. – Основные зависимости и параметры для их выбора

Формула Xk Yk Приведение к линейному виду
1 U = A + bZ; U = lg Y; A = lg a; Z = lg X
2 U = A + BX; U = lg Y; A = lg a; B = lg b
3 U = a + bX; U = 1/ Y
4 Y = a + bZ; Z = lg X
5 Y = a + bZ; Z = 1/ X
6 U = A + BZ; U = 1/ Y; Z = 1/ X; A = 1/ a; B = b / a

 

Рассмотрим нелинейные регрессии по оцениваемым параметрам. Пусть в результате наблюдения получен ряд изучаемого показателя X и Y. По этим значениям можно построить график.

 

X x 1 x 2 xn
Y y 1 y 2 yn

 

Теперь необходимо подобрать формулу, которая могла бы описать экспериментальные данные. Для выбора вида зависимости воспользуемся методом средних точек. Для каждой зависимости рассчитываем координаты средних точек Xk и Yk по формулам из таблицы. Средние точки наносим на график и выбираем ту формулу, средняя точка которой лежит ближе всего к экспериментальной кривой.

Затем необходимо определить параметры выбранной зависимости a и b таким образом, чтобы расчетная кривая лежала как можно ближе к экспериментальной кривой. В качестве критерия близости S выбираем минимум суммы квадратов отклонений между экспериментальными и расчетными значениями.

.                     (2.28)

Для каждой формулы в этом критерии будут присутствовать разные переменные в зависимости от приведения их к линейному виду. Например, для первой формулы U = lg Y; Z = lg X. Тогда система нормальных уравнений для определения параметров линейной зависимости будет иметь вид:

,                                                  

где [ Z ] = S Zi; [ U ] = S Ui; [ Z 2] = S Zi × Zi; [ U × Z ] = S Ui × Zi; n – количество экспериментов; A = lg a и b – искомые коэффициенты уравнения (для определения а необходимо выполнить обратное преобразование: a = 10 A).

Для нахождения соответствующих сумм в каждом случае необходимо получить различные вспомогательные таблицы с учетом приведения выражений к линейному виду. Например, для второй формулы иS Zi = S Xi, а S Ui = Slg(Yi) и т.д.

Решив эту систему, получаем искомые значения параметров. Следует отметить, что при нахождении параметров других зависимостей необходимо сначала привести их к линейному виду согласно

Для проверки правильности выполненных действий получаем расчетные значения подстановкой в найденную формулу экспериментальных значений X. Полученные расчетные значения наносим на график с экспериментальными данными и делаем вывод об адекватности.

 

X x 1 x 2 xn
Y y 1р y 2р yn р

 

 

№8

Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь изменяется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: приравниваем к нулю первую производную параболы второй степени:

 = а + b × x + c × x 2

т.е. b + 2 × c × x = 0 и x = – b /2 c.

Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений:

,

Решить ее относительно параметров а, b, с можно методом определителей:

;    ;     ,

где D – определитель системы; Da, Db, Dc – частные определители для каждого из параметров.

При b > 0 и с < 0 кривая симметрична относительно высшей точки, т. е. точки перелома кривой, изменяющей направление связи, а именно рост на падение.

Ввиду симметричности кривой параболу второй степени далеко не всегда можно использовать в конкретных исследованиях. Чаще исследователь имеет дело лишь с отдельными сегментами параболы, а не с полной параболической формой. Кроме того, параметры параболической связи не всегда могут быть логически истолкованы. Поэтому если график зависимости не демонстрирует четко выраженной параболы второго порядка (нет смены направленности связи признаков), то она может быть заменена другой нелинейной функцией, например степенной.

Таблица 2.5. Зависимость урожайности озимой пшеницы от количества внесенных удобрений

Внесено удобрений, ц/га, x Урожайность, ц/га, y x 2 x 3 x 4 y×x y×x 2
1 6 1 1 1 6 6 6,2
2 9 4 8 16 18 36 8,5
3 10 9 27 81 30 90 10,4
4 12 16 64 256 48 192 11,9
5 13 25 125 625 65 325 13,0
S = 15 50 55 225 979 167 649  

 

система нормальных уравнений составит:

.

Решив эту систему методом определителей, получим:

D = 700,      Da = 2380,   Db = 2090,   Dc = – 150.

Откуда параметры искомого уравнения составят: a = 3,4; b = 2,986; c = –0,214, а уравнение параболы примет вид:

 = 3,4 + 2,986 × x – 0,214 × x 2.

Последовательно подставляя в это уравнение значения x, найдем теоретические значения

Сумма квадратов отклонений остаточных величин S (y)2 = 0,457. Ввиду того, что данные табл.2.4 демонстрируют лишь сегмент параболы второго порядка, рассматриваемая зависимость может быть охарактеризована и другой функцией.

№9

Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем корреляции, а именно индексом корреляции (R)

                                                          (2.29)

где s 2ост – остаточная дисперсия, определяемая из уравнения регрессии f (x); s2 y – общая дисперсия результативного признака.

Поскольку s 2 y = (1/ n) × S(y)2, а s 2ост = (1/ n) × S(y)2, индекс корреляции можно выразить как

.

Величина данного показателя находится в границах: 0 £ R £ 1; чем ближе к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.

Разделив остаточную сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы S 2 и вытекающую из нее стандартную ошибку S.

         .

Парабола второй степени, как и полином более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если же нелинейное относительно объясняемой переменной уравнение регрессии при линеаризации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции, величина которого в этом случае совпадает с индексом корреляции ryz, где преобразованная величина признака-фактора, например, z = 1/ x или z = ln x.

Приведем в качестве примера равностороннюю гиперболу yx = a + b / x. имеем линейное уравнение yz = a + b × z, для которого может быть определен линейный коэффициент корреляции: b × sz / sy. Возводя данное выражение в квадрат, получим:

,                                                     (2.30)

где  и .

Отсюда r2yz можно записать как:

.                                                   (2.31)

Как было показано в разд.2.3,  и соответственно

.

Но так как  и , то

,

т.е. пришли к формуле индекса корреляции:

.

Заменив z на 1/ x,получим yz = yx, соответственно ryz = Ryx.

Аналогичные выражения можно получить и для полулогарифмической кривой yx = a + b × ln x, ибо в ней, как и в предыдущем случае, преобразования в линейный вид (z = ln x) не затрагивают зависимую переменную, и требование МНК S(y)2 ® min выполнимо.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.

Оценка статистической значимости индекса корреляции проводится так же, как и оценка значимости коэффициента корреляции

Индекс детерминации R 2 используется для проверки статистической значимости в целом уравнении нелинейной регрессии по F -критерию Фишера.

,                                                 (2.35)

где n – число наблюдений; m – число параметров при переменных x.

Величина m характеризует число степеней свободы для факторной суммы квадратов, а (nm – 1) – число степеней свободы для остаточной суммы квадратов.

. В противном случае проводится оценка существенности различия между R 2 и r 2, вычисленных по одним и тем же исходным данным, через Стьюдента:

                                                                   (2.36)

где m ! R r ! – ошибка разности между определяемая по формуле

           (2.37)

Если t факт > t табл, то различия между рассматриваемыми показателями корреляции существенны и замена нелинейной регрессии уравнением линейной функции невозможна. Практически если величина t < 2, то различия между R и r несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

№10.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: