Применение корреляционного анализа на примере меди

 

Определение коэффициента корреляции.

Основная задача – определение и выражение формы аналитической зависимости результативного признака У от фактического Х и измерение тесноты связи. Изучение отношения между признаками – главная задача научных исследований. Взаимосвязь явлений и их признаков является главной задачей корреляционного анализа. "Корреляция" означает соответствие, соотношение, сопоставление. При обработке статистических данных необходимо проследить изменение признака одного от другого, то есть найти уравнение связи, а также коэффициент корреляции r.

 

r = √ D

 

, где D – коэффициент детерминации (доля соотношений признаков Х и У в коэффициенте корреляции)

 

<| r | <1

-1< r < 1

 

Расчеты при простом корреляционном анализе.

Теснотой называется связь, где отклонение от линии корреляции меньше. Ввиду различия степени корреляционной зависимости возникает необходимость в специальном измерителе тесноты связи. Изучая зависимость явлений, мы видим, что на результаты влияют несколько факторов. Необходимо определить роль каждого фактора в корреляционном анализе. В широком смысле она сводится к выравниванию этой зависимости является метод наименьших квадратов. Сумма квадратов отклонений сводится к минимуму, то есть Σ (у-ŷ)²= min. Необходимое условие для нахождения коэффициента корреляции через параметры a и b – это приравнивание частных производных к нулю, то есть df/da= 0 и df/db=о. Однако для положительной квадратической функции это является и достаточным условием для нахождения параметров a и b. При прямолинейной связи (уравнение у = а + bх) параметры корреляционного анализа находятся по способу наименьших квадратов из системы уравнений (1):

 

Σу = na + bΣx, (2.1.1)

Σxy = aΣx + bΣx². (2.1.2)

 

(Если зависимость параболическая, то соответственно три производные и три параметра).

Разделив каждый член системы на n, получим систему (2):

 

у ср = а + bх ср, (2.1.3)

ху ср = aх ср = b Σ x²/ n. (2.1.4)

 

Решив эту систему относительно a и b, получим b=ху ср – хср∙уср /σ²х. Подставив b в систему уравнений (2), получим значение коэффициента корреляции:

 

r=ху ср – х ср∙у ср / σх∙σу или r= b (σx / σу)

 

Значением коэффициента корреляции может быть выражение:

 

r = Σ (х – хср)(у – уср)/ √ Σ (х – хср)²Σ(у – уср)² (2.1.5)


Коэффициент корреляции измеряется случайной среднеквадратической погрешностью:

 

σr=1-r²/ √n (2.1.6)

 

Для измерения надежности коэффициента корреляции используется формула:

 

μ= √ r/ σr, μ≥2,6. (2.1.7)

 


Статистическая оценка тесноты связи

 

Существует критерии оценки коэффициента корреляции:

1) Критерий Пирсона

 

η = √ 1 - S²/ σ², (2.2.1) где

 

S² - погрешность выборки,

σ² - погрешность генеральной совокупности.

Если η→1, корреляционная связь тесная;

Если η→0, корреляционная связь отсутствает.

Здесь S = √ Σ (у – уср)² / n-p, p – количество используемых параметров.

 

σ = √ Σ (у – уср)² / n – 1,

 

n – число наблюдений.

2) Критерий Фишера табулирован (Fкр.)


Fф = σ²/ S². (2.2.2)

 

Если Fф>Fкр, то модель оптимальна, и связь существует. Если наоборот, ищем другую модель: показательную, гиперболическую, степенную.

 

2.3 Применение корреляционного анализа для экономических характеристик меди

 

Корреляционный анализ.

года

цена,$/т

добыча,млн/т

1999

1400

12,79

2000

1460

13,3

2001

1560

13,58

2002

1600

13,2

2003

1700

13,6

2004

3000

14,6

2005

4000

14,98

2006

4600

14,95

2007

6280

19,1

2008

3180

17,3

 

 

 

 

 

 

 

 

 

№ п/п

добыча, x

цена,у

x-xcр

(x-xcр)²

(x-xcр)(у-уср)

ŷ

(у-уcр)

1

2

3

4

5

6

7

8

1

12,79

1400

-1,05

1,1025

1551,9

3034,98

-1478

2

13,3

1460

-0,54

0,2916

765,72

2958,74

-1418

3

13,58

1560

-0,26

0,0676

342,68

2916,87

-1318

4

13,2

1600

-0,64

0,4096

817,92

2973,69

-1278

5

13,6

1700

-0,24

0,0576

282,72

2913,88

-1178

6

14,6

3000

0,76

0,5776

92,72

2764,37

122

7

14,98

4000

1,14

1,2996

1279,08

2707,56

1122

8

14,95

4600

1,11

1,2321

1911,42

2712,04

1722

9

10,1

6280

-3,74

13,9876

-12723,48

3437,16

3402

10

17,3

3180

3,46

11,9716

1044,92

2360,7

302

Σ

138,4

28780

 

30,9974

-4634,4

 

 

(у-уcр)²

(у-ŷ)

ıу-ŷı/ŷ

 

 

 

 

 

9

10

11

 

 

 

 

 

2184484

-1634,985

0,538712678

 

 

 

 

 

2010724

-1498,735

0,506545877

 

 

 

 

 

1737124

-1356,872

0,465180586

 

 

 

 

 

1633284

-1373,686

0,461947219

 

 

 

 

 

1387684

-1213,882

0,416585894

 

 

 

 

 

14884

235,62708

0,085237081

 

 

 

 

 

1258884

1292,4406

0,477345253

 

 

 

 

 

2965284

1887,9553

0,696137259

 

 

 

 

 

11573604

2842,8352

0,827087238

 

 

 

 

 

91204

819,30223

0,347059346

 

 

 

 

 

24857160

 

4,82183843

 

 

 

 

 

xcр=Σх/n

 

 

 

 

 

 

 

xcр=

13,84

 

 

 

 

 

 

уср=Σу/n

 

 

 

 

 

 

 

уср=

2878

 

 

 

 

 

 

ŷ=a+bx

 

 

 

 

 

 

 

a=yср-bxср

 

 

 

 

 

 

 

a=

4947,2089

 

 

 

 

 

 

b=Σ(x-xср)(y-yср)/Σ(x-xср)²

 

 

 

 

 

b=

-149,5093

 

 

 

 

 

 

 

MAPE=1/n(Σıy-ŷı/y)*100%

MAPE=

0,4821838

σ=√Σ(у-уср)²/n-1

σ=

1661,89

r=Σ(х-хср)(у-уср)/√Σ(х-хср)²Σ(у-уср)²

r=

0,166

σх=√Σ(х-хср)²/n-1

σх=

1,8

tr=r√n-2/1-r²

tr=

0,47

S=√Σ(у-уср)²/n-p

S=

1762,7

ta=ıaı√n-2/S

ta=

296,83

tb=ıbı√n-2/S*σх

tb=

7,47

σr=1-r²/√n

σr=

0,3

э=b*(хср/уср)

э=

-0,71

 

Поскольку коэффициент аппроксимации < 33%, данная линейная модель считается приемлемой.

 




Глава 3. Тренд-анализ для расчета экономических показателей

Теория тренд-анализа

 

А) анализ временных рядов.

Ряд данных, взятых в определенный период t и представленных в табличной форме, называют временными рядами. Наиболее важной компонентой временных рядов является тенденция. В экономической литературе линию тенденции называют трендом.

Данные временных рядов часто изображаются графически. Среди графических изображений временных рядов главными являются:

- тенденция, T

- циклическая, C

- сезонная, S

- нерегулярная, I

Б) компоненты временного ряда.

Тенденция является долгосрочной компонентой и определяет общее изменение временного ряда. Прямая, представляющая линию развития во времени, обозначается символом T.

Сезонная S относится к типу изменения, регулярно повторяющемся во времени.

Циклическая С- компонента, повторяющаяся волнообразно, длящаяся во времени, но менее короткая, чем Т.

I - нерегулярная компонента, представляющая быстрые изменения малой длительности.

По классической модели любая заданная величина У может быть представлена во временном ряду или суммой компонент

 

У=Т+С+S+I, (3.1.1)


При условии, что, если рассматривать тенденцию, остальные компоненты "замораживаются".

Заданную величину У можно представить и произведением воздействующих компонентов.

 

У=Т*С* S*I. (3.1.2.)

 

В) анализ тенденции T и сезонной S.

важным направлением социально- экономических исследований является изучение основной тенденции развития (тренда). На практике наиболее распространёнными методами исследований являются:

1).Укрупнение интервалов;

2).сглаживание скользящей средней;

3).аналитическое выравнивание.

1. укрупнение интервалов.

В этом методе главное- это преобразование первоначальных рядов динамики в ряды более продолжительных периодов.

2. укрупнение интервалов.

В основу этого метода положено определение по эмпирическим данным теоретических уровней, в которых случайные колебания погашаются, а основная линия развития выражается в виде плавной кривой.

Применение в тренд- анализе рядов динамики метода укрупнения интервалов и метода сглаживания скользящей кривой позволяет выявить тренд для его описания (развития),но не измерение тренда. Измерение тренда можно получить методом аналитического выравнивания, когда основная тенденция развития у1 рассматривается как функция времени у=f(t). Определение выровненной функции развития у1^ происходит на основе адекватной математической функции, которая наилучшим образом отображает основную тенденцию развития. Подбор адекватных функций осуществляется методом наименьших квадратов. Рассматривая минимум суммы квадратов отклонений, и выравнивание происходит на основе нахождения теоретических кривых (в уравнениях которых появляется новый фактор- время):

 

Y=a + b*t,

Y= a + b*1/t,

Y= a + b*t + c*t2

 

Статистические показатели динамики социально- экономических явлений.

В зависимости от применяемого способа (одного из трех), сопоставления показателей временных рядов вычисляются на постоянной и переменной базах сравнения.

1)для расчетов показателей динамики на постоянной базе каждый уровень ряда сравнивается с одним и тем же базисным уровнем. Такое исчисление называется базисным;

2)для расчета показателей динамики на переменной базе каждый уровень последующих показателей сравнивается с предыдущим. Такое исчисление показателей называется цепным.

Уровень ряда - это количественная оценка развития во времени.

Важнейшими показателями тренд- анализа являются:

1) абсолютный прирост, величина которого может быть положительной и отрицательной.

 

∆yδ=yi-y0

∆yu=yi-y(i-1), где

 

Yi- сравниваемый уровень ряда,

Y0i-постоянная база сравнения,

Y(i-1)-предшествующий уровень.

2) темп роста базисный и цепной и относительные приросты (всегда положительные) выражают отношение двух уровней роста. Выражаются в коэффициенте или в %.

А) базисный темп роста:

 

Тр.б.= у1/у0i (3.1.3)

 

Б) цепной темп роста:

 

Тр.ц.=у1/у(i-1) (3.1.4)

 

В) темпы прироста - это понятие среднего темпа роста.

 

Т‾р.б.=ⁿ√Пр.Т.р.б., (3.1.5)

 

Где под корнем находится произведение базисных темпов роста.

 

Т‾р.ц.= ⁿ√Пр.Т.р.ц.,

 

Где под корнем находится произведение цепных темпов роста.

3) прирост цепной.

 

Тпр.ц.=(Т‾р.ц.-1)*100% (3.1.6)

 

Прирост базисный.

 

Тпр.б.= (Т‾р.б.-1)*100% (3.1.7)

 


Выбор масштаба времени: Система уравнений упрощается, если значения временных периодов подобрать так, чтобы их сумма равнялась нулю. Если число периодов четное, то столбец t делится

 

∑t= n(n-1)/3

 

Если число параметров четное.

Если нечетное-

 

∑t= n(n-1)/12

 

Если число параметров нечетное.

Линейное уравнение имеет следующий вид:

 

Y= a+b*t.

 

Параметры а и b находятся по формулам:

 

а=∑y/n; b=∑y*t/∑t.

 

Вывод: Случайный процесс характеризуется последовательностью наблюдений i-го показателей х1,х2…хn во времени t. Временной ряд- это последовательность наблюдений случайного процесса в равноотстоящие моменты времени - динамический ряд. Любой уровень можно представить как функцию y= f(t)+e или x=f(t)+e. E- случайная компонента функции f(t). она выражает влияние постоянно действующих известных факторов (T, C,S,I) и называется трендом. Тренд- это тенденция изменения изучаемого i-го показателя во времени. Зависимость y(t) выявляет экстрополирование тенденции исследуемого процесса, т.е. подбором теоретических кривых, адекватных изучаемому процессу. С целью вначале выбирают тип кривой, максимально соответствующей характеру тенденции временного ряда и определяют числовые значения параметров a, b,c и т.д. теоретическими кривыми могут быть:

1) линейная функция y= a+b*t

2) гиперболическая функция y= a+b*1/t

3) параболическая функция y= a+b*t+c*t

4) степенная функция y= a*t в степени b.

Запас кривых, которые нам предлагает математический анализ, разнообразен. Чтобы узнать оптимальна ли модель, вычисляем коэффициент аппроксимации

 

MAPE=1/n*(∑y-y^/y^)*100%

 

Если MAPE‹33%,модель оптимальна. При сравнении нескольких моделей принимаем ту, где величина MAPE минимальна.

 




Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: