Парная линейная регрессия

Задание 4.

Результаты моментного наблюдения за поведением покупателей в магазине самообслуживания приведены в таблице.

Код действия покупателя
Количество покупателей

1 − ищут нужный отдел;

2 − подходят к прилавку;

3 − изучают ассортимент товаров и их цены;

4 − выбирают необходимый товар;

5 − переносят товар к кассе;

6 − оплачивают товар;

7 − выходят из магазина.

Найти выборочную долю покупателей, которые в момент обследования совершают действие, которое указано в таблице в соответствии с номером варианта задания.

Вариант	Код действия	Вариант	Код действия


			3 или 4
			5 или 6
			1 или 2

и предельную ошибку для оценки доли в генеральной совокупности с доверительной вероятностью Р = 0,95.

9. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ

Во многих науках (физика, экономика и т. д.) используются модели, в которых некоторые переменные (не случайные) связаны функциональной зависимостью. Примером таких зависимостей является закон Бойля-Мариотта или формула Ф. Котлера.

При статистической зависимости переменные (случайные величины) не связаны функционально. Однако закон распределения одной из них зависит от того, какое значение приняла другая случайная величина. Поэтому речь идет об условном распределении Y при заданном х.

В частности, можно рассматривать M(Y/x) как некоторую функцию х (регрессия).

При исследовании статистической зависимости между признаками пытаются ответить на следующие вопросы:

- существует ли статистическая связь между признаками;

- какова степень этой связи;

- какова форма связи.

Первые два вопроса решаются на основании корреляционного анализа. В качестве меры тесноты связи обычно используется коэффициент корреляции - . При связь становится функциональной.

Выборочный коэффициент корреляции r рассчитывается по формуле

где - значение случайной величины X для i -го наблюдения (объекта);

- значение случайной величины Y для i -го наблюдения (объекта);

,- выборочные средние значения случайных величин X и Y;

n – число наблюдений (объем выборки).

На практике используются следующие формулы для «ручных» вычислений

;

После того, как вычислен выборочный коэффициент корреляции r следует проверить гипотезу об отсутствии корреляционной связи для генеральной совокупности Н₀: .

Для этого вычисляется критерий

и сравнивается с табличным значением критерия Стьюдента с степенями свободы уровня значимости .

Если , то с надежностью можно отвергнуть гипотезу Н₀ и считать, что корреляция имеется.

Для измерения тесноты связи используется не только коэффициент корреляции, но и корреляционное отношение.

Рассмотрим аналитическую группировку. Имеет место следующее соотношение

где − полная дисперсия признака-результата;

− внутригрупповая дисперсия;

− межгрупповая дисперсия.

Внутригрупповая дисперсия характеризует ту часть дисперсии признака-результата, которая не зависит от признака-фактора. Ее оценка определяется по формуле

где - оценка дисперсии признака – результата в пределах отдельной

группы по признаку-фактору;

n_i – численность i-й группы.

Межгрупповая дисперсия отражает ту часть общей дисперсии признака-результата, которая объясняется влиянием признака-фактора. Ее оценка определяется по формуле

где − групповое среднее i-й группы.

Коэффициент детерминации определяет долю объясненной дисперсии в общей дисперсии признака-результата

Корреляционное отношение определяется как

Оно является мерой тесноты связи при любой форме зависимости, а не только линейной, как коэффициент корреляции.

Следующий этап исследования корреляционной связи заключается в том, чтобы описать зависимость признака-результата от признака-фактора некоторым аналитическим выражением.

где − средний уровень показателя Y при данном значении x.

Если рассчитан коэффициент корреляции r, то коэффициенты a₀ и a₁ могут быть определены следующим образом

, .

В общем случае такая задача может решаться с помощью метода наименьших квадратов (МНК).

Рассмотрим использование метода наименьших квадратов для оценки параметров регрессии .

На практике имеется серия наблюдений (x_i;y_i) (i=1,..,n).

Будем считать, что

Тогда

Продифференцировав Q по a₀ и a₁ и приравняв частные производные нулю, получим следующую систему уравнений

;

решая которую получим оценки и

Основное назначение регрессионной модели – использование ее для прогноза экономического показателя y. Прогноз осуществляется подстановкой значения фактора в оценку детерминированной составляющей:

Чтобы определить точность этой оценки и построить доверительный интервал необходимо найти дисперсию оценки .

На практике для оценки дисперсии ошибки прогноза можно пользоваться следующим выражением

Из этого выражения следует, что с ростом дисперсия ошибки прогноза увеличивается.

Пример.

Исследуем зависимость розничного товарооборота магазинов (млрд р.) от среднесписочного числа работников. Обозначим:

x – число работников;

y – товарооборот.

Исходные данные и результаты расчетов приведены в таблице

Номер магазина
	0,5	39,5	6 241	0,25
	0,7	59,5	7 225	0,49
	0,9	91,8	10 404	0,81
	1,1	126,5	13 225	1,21
	1,4	170,8	14 884	1,96
	1,4	176,4	15 876	1,96
	1,7	227,8	17 956	2,89
	1,9	279,3	21 609	3,61
Итого	9,6	1171,6	107 420	13,18

;

; ;

;

Вычислим выборочный коэффициент корреляции:

;

Тогда

Проверим значимость выборочного коэффициента корреляции. Для этого вычислим статистику t:

Табличное значение критерия Стьюдента для = n-2 = 6 и

Так как 15,65 > 2,45, то полученный коэффициент статистически значим.

Найдем коэффициенты парной линейной регрессии:

;

и регрессия имеет вид

Прогнозное значение розничного товарооборота при составит

Задание 5. С помощью корреляционного и регрессионного анализа изучить связь между показателями, указанными в Вашем варианте.

1. Рассчитать значение коэффициента корреляции для несгруппированных данных табл. 1.

2. По данным аналитической группировки (задание 1) найти межгрупповую дисперсию признака-результата и с учетом полной дисперсии (задание 2) определить коэффициент детерминации и корреляционное отношение.

1. Сделать вывод о тесноте и форме статистической связи.

2. Найти коэффициенты парной линейной регрессии и сделать прогноз признака-результата, если признак-фактор принимает свое среднее значение.

3. На одном рисунке изобразить эмпирическую (по данным аналитической группировки) и теоретическую регрессии. Провести анализ степени их совпадения.