Коэффициент детерминации

Корреляция

Точность приближения

Расчеты

Расчеты

Формулы параметров

Нахождение параметров линии

МНК на графике

Как оценить зависимость

Что мы видим

Графическое представление

Представление данных

Рассмотрим самый простой пример: удалось собрать данные по объемам продаж всех компаний на рынке и их ценам

делаем ОЧЕНЬ неправдоподобное допущение, что все остальные параметры за это время не менялись или не влияли на объем продаж

Фирма Продажи (тыс. штук) Цена
A    
B    
C    
D    
E    
F    
G    

Построим точечный график —график рассеяния


Можно заметить обратную зависимость между ценой и объемом продаж

Зависимость далеко не детерминированная: точки не лежат на прямой или гиперболе

Это объясняется тем, что мы включили всего лишь одну переменную — цену. Остальные вызывают разброс

Зависимость, скорее всего, линейная


Чтобы оценить зависимость Y(X), мы воспользуемся методом, который называется регрессией по методу наименьших квадратов (МНК)

Он заключается в том, что мы находим линию, которая расположена максимально близко ко всем точкам данных:

=a+bX

Чтобы ее найти, мы минимизируем сумму квадратов расстояний от точек до этой линии:

∑(Yi− i)2 →min

Проще всего это понять на графике



Мы можем найти параметры a и b этой прямой с помощью минимизации суммы квадратов:

SS=∑(Y−(a+bX))2

Для этого берем производную по каждому параметру и приравниваем к нулю:

=−2∑(Y−a−bX)=0

=−2∑X(Y−a−bX)=0


После решения этих двух уравнений мы получим:

b=

a= − b = −b

В принципе, все это быстро считается любой статистической программой — или даже Excel (на точечном графике нужно добавить “линию тренда” и уравнение)


Рассчитаем для нашего примера:

Продажи (тыс. штук) (Y) Цена (X) XY X 2
       
       
       
       
       
       
       

• n=7 (семь компаний)

•∑XY=7392

•∑X=119,∑Y=448

•∑X2=2051

• b=−8,a=200

• Следовательно, Q=200 −8P


Есть несколько способ оценить, насколько точно наше уравнение описывает нашу статистику

Один из них — коэффициент корреляции, который показывает, насколько сильно связаны между собой две переменные:

r=


Для нашего примера:

r= = =−0.826

Минуc показывает, что зависимость отрицательная, а силу можно оценить по шкале от 0 до 1. Выше 0.8 — это сильная зависимость

Важно помнить, что часто корреляция не является показателем причинно-следственных отношений


Более надежная мера проверки регрессии — коэффициент детерминации, который обозначается какR2

Он показывает, какую долю разброса наших наблюдений описывает подобранная линия

Если помните, мы минимизировали общую сумму квадратов:

Ее можно разделить на объясненную часть (насколько отклоняется от среднегоY) и необъясненную —дополнительное отклонение


R2

Это можно записать так:

TSS=ESS+RSS

(Общая сумма квадратов = объясненная + остаточная)

Тогда коэффицент для нашего примера:

R2 = =0.683

Это значит, что мы можем объяснить 68% зависимости между ценой и объемом продаж



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: