Корреляция
Точность приближения
Расчеты
Расчеты
Формулы параметров
Нахождение параметров линии
МНК на графике
Как оценить зависимость
Что мы видим
Графическое представление
Представление данных
Рассмотрим самый простой пример: удалось собрать данные по объемам продаж всех компаний на рынке и их ценам
делаем ОЧЕНЬ неправдоподобное допущение, что все остальные параметры за это время не менялись или не влияли на объем продаж
Фирма | Продажи (тыс. штук) | Цена |
A | ||
B | ||
C | ||
D | ||
E | ||
F | ||
G |
Построим точечный график —график рассеяния
Можно заметить обратную зависимость между ценой и объемом продаж
Зависимость далеко не детерминированная: точки не лежат на прямой или гиперболе
Это объясняется тем, что мы включили всего лишь одну переменную — цену. Остальные вызывают разброс
Зависимость, скорее всего, линейная
|
|
Чтобы оценить зависимость Y(X), мы воспользуемся методом, который называется регрессией по методу наименьших квадратов (МНК)
Он заключается в том, что мы находим линию, которая расположена максимально близко ко всем точкам данных:
=a+bX
Чтобы ее найти, мы минимизируем сумму квадратов расстояний от точек до этой линии:
∑(Yi− i)2 →min
Проще всего это понять на графике
Мы можем найти параметры a и b этой прямой с помощью минимизации суммы квадратов:
SS=∑(Y−(a+bX))2
Для этого берем производную по каждому параметру и приравниваем к нулю:
=−2∑(Y−a−bX)=0
=−2∑X(Y−a−bX)=0
После решения этих двух уравнений мы получим:
b=
a= − b = −b
В принципе, все это быстро считается любой статистической программой — или даже Excel (на точечном графике нужно добавить “линию тренда” и уравнение)
Рассчитаем для нашего примера:
Продажи (тыс. штук) (Y) | Цена (X) | XY | X 2 |
• n=7 (семь компаний)
•∑XY=7392
•∑X=119,∑Y=448
•∑X2=2051
• b=−8,a=200
• Следовательно, Q=200 −8P
Есть несколько способ оценить, насколько точно наше уравнение описывает нашу статистику
Один из них — коэффициент корреляции, который показывает, насколько сильно связаны между собой две переменные:
r=
Для нашего примера:
r= = =−0.826
Минуc показывает, что зависимость отрицательная, а силу можно оценить по шкале от 0 до 1. Выше 0.8 — это сильная зависимость
Важно помнить, что часто корреляция не является показателем причинно-следственных отношений
|
|
Более надежная мера проверки регрессии — коэффициент детерминации, который обозначается какR2
Он показывает, какую долю разброса наших наблюдений описывает подобранная линия
Если помните, мы минимизировали общую сумму квадратов:
Ее можно разделить на объясненную часть (насколько отклоняется от среднегоY) и необъясненную —дополнительное отклонение
R2
Это можно записать так:
TSS=ESS+RSS
(Общая сумма квадратов = объясненная + остаточная)
Тогда коэффицент для нашего примера:
R2 = =0.683
Это значит, что мы можем объяснить 68% зависимости между ценой и объемом продаж