Парная линейная корреляция

 

§ 9. Понятие корреляционной зависимо- сти. Задачи теории корреляции

В новых условиях хозяйственной деятельности предприятий возрас- тает роль экономико-математических методов для управления производст- вом. Управление производством — это сложный динамический процесс. Поэтому при выработке оптимального решения по управлению производ- ственно-хозяйственной деятельностью предприятия необходимо не только учитывать изменения параметров и характеристик, описывающих эту дея- тельность, но и уметь их прогнозировать, основываясь на экономических законах, которые наиболее полно отражают взаимосвязи основных показа- телей предприятия и его подразделений. Математическая формализация этих связей создает условия для экономического обоснования целесооб- разных объемов производимой продукции, определения ее качественных показателей и условий эффективного использования ресурсов.

Для решения этих задач применяют методы корреляционного анали- за. При анализе зависимостей между производственными показателями методами корреляционного анализа выделяют два основных типа пере- менных количественных признаков: независимые переменные (факторные признаки) и зависимые переменные (результативные признаки).


 

52          ГЛАВА 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

При изучении взаимосвязей между переменными признаками надо,

прежде всего, установить, к какому типу зависимостей относится эта связь.

Зависимость между признаками X и Y называется корреляционной,


если каждому возможному значению xi


признака   X сопоставляется ус-


ловная средняя соответствующего распределения признака Y.

Среднее арифметическое значение признака Y, вычисленное при ус-


ловии, что признак X принимает фиксированное значение


xi, называется


условным средним, обозначается через


yxi


и вычисляется по формуле:


 

xi          nxi
y å  nij y j   ,                                       (42)

 


где


nij


— частоты, показывающие сколько раз повторяются парные значе-


ния


xi,


y j в данной выборке,


nxi


— частота появления значения хi.


Теория корреляции изучает такую зависимость между признаками X и Y, при которой с изменением одного признака меняется распределе- ние другого. Она применяется для того, чтобы при сложном взаимодейст- вии посторонних факторов выяснить, какова должна быть зависимость между признаками X и Y, если бы посторонние факторы не изменялись и своим изменением не искажали истинную статистическую зависимость [4].

В теории корреляции решается триединая задача, методологической основой которой является триада:

Модель — Свойства — Адекватность.

Первая задача — поиск подходящей модели. На основе опытных данных выявляется характер корреляционной зависимости между призна- ками X и Y. При парной корреляции для ее решения применяют графиче-


ский метод. Если в корреляционном поле точки


(xi,


y j)


хорошо ложатся


на прямую, то можно предположить, что связь между признаками X и Y носит линейный характер. Если точки не ложатся на прямую, то связь бу- дет нелинейной. Исходя из геометрических соображений, выбирают урав- нение линии, которое называют уравнением регрессии, и находят неиз- вестные параметры, входящие в уравнение.

Вторая задача — изучение свойств модели. Определяется теснота связи между признаками, включенными в модель, по коэффициенту r кор- реляции (в случае линейной корреляции) или по корреляционным отноше-


ниям


yx,


h xy


(в случае криволинейной корреляции).


Третья задача — выявление степени адекватности построенной кор- реляционной модели (проверяется соответствие полученного уравнения регрессии опытным данным). Если данная модель оказалась не адекватной, то всё начинается сначала — строят новую модель.


§ 10. Парная линейная корреляция

Предположим, что на основе геометрических, физических или дру- гих соображений установлено, что между двумя количественными призна- ками X и Y существует линейная корреляционная зависимость. Тогда уравнение регрессии записывают в виде:

 


y ˆ x


= a 0


a 1 x.                                      (43)


 

Пусть опытные данные не сгруппированы в корреляционную табли- цу, т. е. заданы в виде табл. 18.

Т а бл и ца 18

xi x 1 x 2 x 3 xk
yi y 1 y 2 y 3 yk

 

В этом случае значения а 0, а 1, являющиеся оценками истинных вели- чин уравнения регрессии, находят по методу наименьших квадратов [4], решая систему линейных алгебраических уравнений (СЛАУ) относительно а 0, а 1:

 


ì  na 0 +

í


[ x ] a 1 = [ y ],

2


 

(44)


î[ x ] a 0 + [ x ] a 1 = [ xy ],

 

k                k                   k                   k

i
где [ x ] = å  xi, [ y ] = å  yi, [ x 2 ] = å  x 2, [ xy ] = å  xi yi.


i =1


i =1


i =1


i =1


Для нахождения сумм, входящих в систему (44), составляется табл.

19.

Т а бл и ца 19

xi yi xi yi x 2 i
       
[ x ] [ y ] [ xy ] [ x 2]

 

Если опытные данные сгруппированы в корреляционную таблицу, то


значения


a 0 и a 1


уравнения регрессии (43) находят по методу наименьших


квадратов, решая СЛАУ

 

ìï

í


 

na 0 +


 

[ nx x ] a 1 = [ ny y ],

2


 

 

(45)


ïî[ nx x ] a 0  + [ nx x


] a 1 = [ nxy xy ],


 


где nx


и ny


— частоты признаков X и Y,


nxy


— частота совместного по-


явления признаков   X и Y. Для нахождения сумм, входящих в систему

(45), составляется табл. 20.

Т а бл и ца 20

x y x 1 x 2 xk n y n y y
y 1          
y 2          
ym          
nx         [ ny y ]
nx x       [ nx x ]  
nx x 2       [ nx x 2 ]  
nxy xy       [ nxy xy ]  

Суммы


[ nx x ],


[ nx x 2 ],


[ nxy xy ]


в табл. 20 находятся по строкам, а сумма


[ n y y ] — по последнему столбцу табл. 20.

В уравнении регрессии (43) параметр a 0


 

характеризует усредненное


влияние на результативный признак Y неучтенных (не выявленных для


исследования) факторных признаков


X i. Параметр


a 1 показывает, на


сколько изменяется в среднем значение результативного признака Y при увеличении факторного признака на единицу.


Используя параметр

K э по формуле:


a 1, вычисляют [9] коэффициент эластичности


 


y
K э = a 1   x


.                                          (46)


§ 10. Парная линейная корреляция                      55


Коэффициент эластичности K э


показывает, на сколько процентов


изменяется результативный признак Y при изменении факторного призна- ка X на 1 %.

В случае линейной корреляционной зависимости между признаками

X и Y, уравнения регрессий находят [4] по формулам:

 


y ˆ x


= y + r S y

S
x


(x - x),                                 (47)


 


x ˆ y


= x + r S x

S
y


(y -


y) ,                                (48)


 


где x, y — выборочные средние признаков X и Y;


S x, S y


— выбороч-


S
ные средние квадратические отклонения признаков X и Y, вычисляемые по формулам:

 


S ˆ x   =


, где ˆ 2


n

= å (x
  1

n -1

i =1


- x) 2


(n < 50)


 

,             (49)


 

x
i
ˆ                  2  n                2


=
S y   =   , где


S ˆ y


1

n -1


å(yi i =1


- y)


(n < 50).          (50)


 


При


n ³ 50


S x и S y


находят по формулам:


 


S x =  , где


n

S
n
x
2 = 1  å (xi


- x) 2,                       (51)


i =1

 


S y   =   , где


n

S
n
y
2 = 1  å (yi


- y) 2.                      (52)


i =1

Коэффициент линейной корреляции r находят по формуле:

 


r =
 xy - x × y

S x × S y


,                                          (53)


 


где xy


— средняя произведения значений признаков   X и Y, x, y


средние значения признаков X и Y,


S x, S y


— выборочные средние квад-


ратические отклонения признаков X и Y, вычисленные по формулам (49)

и (50), если n < 50, или по формулам (51) и (52), если n ³ 50.

Уравнение (47) называют уравнением регрессии y на x, а уравнение

(48) — уравнением регрессии x на y.


Если данные выборки для признаков X и Y заданы в виде корреля-

ционной таблицы и объем выборки   n > 30, то для нахождения величин,

входящих в уравнения линий регрессий (47) и (48), переходят к вспомога-


тельному распределению с условными вариантами ui

по формулам:


и v j, вычисляемых


 

i
u = xi - C 1,                                        (54)

h 1

 


v j =


y j - C 2,                                        (55)

h 2


 


где C 1 = M 0 X, C 2 = M 0 Y,


h 1 и h 2


— шаги значений признаков X и Y.


Выборочный коэффициент линейной корреляции r в этом случае находят по формуле

 


 

где


 

å nuv uv - nu v

r =
nSu Sv


,                                       (56)


 


Su  =           , Sv  =


.                       (57)


 


Для нахождения суммы å  nuv uv


составляется расчетная табл. 21.

 

Т а бл и ца 21


 

v u v 1 v 2 vk nu
u 1 u 1 v 1 nu 1 v 1 u 1 v 2 nu 1 v 2 u 1 vk nu 1 v k nu 1
u 2 u 2 v 1 nu 2 v 1 u 2 v 2 nu 2 v 2 u 2 vk nu 2 v k nu 2
un unv 1 nun v 1 unv 2 nun v 2 unvk nun v k nun
nv nv 1 nv 2 nvk å nuvuv

 


Статистики x, y,


S x, S y


находят по формулам:


 


x = uh 1 + C 1,


y = vh 2 + C 2,


S x = Su h 1,


S y = Sv h 2 .           (58)


 

§ 11. Коэффициент корреляции, его свойства и значимость

После выбора функции как формы корреляционной зависимости ме- жду признаками X и Y решается задача, состоящая в определении тесно- ты связи между ними, в оценке рассеяния относительно линии регрессии





































































































































































double arrow