Измерение и интерпретация случайной составляющей

Надежность получаемых оценок a0 и a1 зависит от дисперсии отклонений переменной у от оцененной линии регрессии ei = у i i - b . Несмещенная оценка дисперсии случайной составляющей вычисляется по формуле

, (2.7)

и является мерой разброса зависимой переменной вокруг линии регрессии (необъясненная дисперсия).

В качестве меры того, насколько хорошо регрессия описывает данную систему наблюдений, служит коэффициент детерминации, при этом вычисляются следующие суммы квадратов отклонений:

S2i(y i)2 – фактических значений от их среднего арифметического;

Ŝ2= åi (ŷ i )2 – выровненных значений от среднего арифметического

фактических значений;

Š2= åi (y i ŷ i)2 – фактических от выровненных значений.

Имеет место равенство S2= Ŝ2 + Š2.

Коэффициент детерминации есть отношение объясненной части вариации ко всей вариации в целом

R22/S2=1 – Š2/S2. (2.8)

Таким образом, чем «ближе» этот коэффициент к единице, тем лучше описание, разумеется, если при этом модель методически правильна.

В столбцах 8 и 10 табл.2.1 вычислены выровненные значения эмпирической функции регрессии и квадраты их отклонений от наблюденных значений.

В соответствии с (2.7) получаем оценку дисперсии случайной составляющей

=0,0479/6=0,008.

В соответствии с (2.8) значение коэффициента детерминации

R2= 1 – Š2/S2 = 1 – 0,0479/1,66=0,971

показывает, что 97,1% общей вариабельности розничного товарооборота объясняется изменениями числа работников, в то время как на все остальные факторы приходится лишь 2,9% вариабельности.

Найденные отклонения фактических значений от выровненных (столбец 9) позволяют провести сравнительный анализ работы различных магазинов. Прежде всего, необходимо обратить внимание на магазины с отрицательным отклонением (3, 4, 6). Особенно велико отклонение у 4-го магазина. Необходимо внимательно обследовать эти магазины и установить причины отклонений. Это может быть расположение магазина в стороне от основных потоков покупателей, плохое обслуживание, неудовлетворительный кадровый состав и т.п. Здесь, по-видимому, имеются резервы в организации труда работников. Напротив, в магазинах 1, 2, 5, 7 и 8 работники используются эффективнее статистического «норматива», но может оказаться, что эти магазины объективно находятся в лучших условиях.

Обозначим Sxi(x i)2, тогда дисперсия параметра a1 вычисляется по формуле D(a1)=σ2/ Sx.

Значимость оцененного коэффициента регрессии a1 может быть проверена с помощью анализа его отношения к своему стандартному отклонению

t=a1/ÖD(a1). (2.9)

Эта величина имеет распределение Стьюдента с (n – 2) степенями свободы и называется t- статистика. (см. приложение 1). Можно использовать следующее грубое правило для оценки значимости коэффициента линейной регрессии:

- если t<1, то он не может быть признан значимым, поскольку доверительная вероятность здесь составляет менее 0,7;

- если 1<t<2, то сделанная оценка может рассматриваться как более или менее значимая, доверительная вероятность здесь примерно от 0,7 до 0,95;

- значение 2<t<3, свидетельствует о весьма значимой связи (доверительная вероятность от 0,95 до 0,99);

- t>3 есть практически стопроцентное свидетельство ее наличия.

Сформулированными правилами можно надежно пользоваться при n³10.

При большом размере выборки повторяющиеся пары наблюдений группируются в виде корреляционной таблицы. Если nyx – количество наблюдений одинаковых пар (х, у), то для вычисления коэффициента корреляции в формуле (2.1) необходимо брать ху =ånyx x i y i/n.

Для оценки тесноты любой корреляционной связи вводится корреляционное отношение Y к Х как отношение межгруппового среднего квадратического отклонения к общему среднему квадратическому отклонению признака Y:

hyx=sYx/sy. (2.10)

Здесь sYx=√(Snx(y xy)2)/n,

sy = √Sny(yy)2)/n,

где n – объем выборки (сумма всех частот); nx – частота значения х признака Х; ny – частота значения у признака Y; y – общая средняя признака Y; y x – условная средняя признака Y.

Чем ближе корреляционное отношение к 1, тем теснее связь между признаками, однако, оно не задает вида этой связи и не позволяет судить о степени близости наблюдений к какой-либо кривой.

Пример 2.2. Пусть имеется распределение 50 га пахотной земли по количеству внесенных удобрений х (ц на 1 га) и по урожайности у (ц с 1 га), приведенное в табл. 2.2. В этой таблице, например, число 4, стоящее на пересечении 1-й строки и 1-го столбца, показывает, что на 4 га из 50 было внесено по 10 ц удобрений и при этом получена урожайность по 15 ц с га. Найти уравнение прямой линии регрессии Y на Х, коэффициент корреляции и корреляционное отношение по данным корреляционной табл. 2.2.

Таблица 2.2

у х
      ny
         
       
nх       n =50
у х        

Вычислим сначала все средние и дисперсии:

у =(38×15+12×25)/50=17.4,

х =(10×10+28×20+12×30)/50=20.4,

=(10×100+28×400+12×900)/50=460,

ху =(4×10×15+28×20×15+6×30×15+6×10×25+6×30×25)/50=354,

sх = Ö – ()2 =Ö460 – 20.42 =Ö43.84=6.62,

sy =Ö(38× (15 – 17.4)2 +12× (25 – 17.4)2)/50=4.27,

sYx =Ö(10× (21 – 17.4)2+28× (15 – 17.4)2+12× (20 – 17.4)2)/50=Ö7.44=2.73.

Тогда коэффициент корреляции из (2.2)

ryx =(354 – 20.4×17.4)/(6.62×4.27)= – 0.034,

коэффициент регрессии из (2.6)

ryx = –0.034×4.27/6.62= –0.022,

уравнение прямой регрессии имеет вид

у х – 17.4= –0.022(х – 20.4) или у х = –0.022 х + 17.85

и корреляционное отношение из (2.10)

hyx=2.73/4.27=0.64.

Из вычисленных показателей можно сделать следующий вывод:

Линейной связи между признаками нет, но какая-то связь есть, причем весьма существенная. Диаграмма рассеяния и прямая линия регрессии построены на рис.2.1. (В кружках проставлены nyx).


25

 
 


у х = -0.022 х +17.85

               
 
 
     
       
 


15

10 20 30

Рис.2.1. Диаграмма рассеяния (пример 2.2).

2.7. Практический блок


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: