Модель парной линейной регрессии

Пример 1. По территориям региона приводятся данные за 199X г.
(таб. 1.1).

Таблица 1.1

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x	Среднедневная заработная плата, руб., y
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Задания:

1. Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость и построить для него доверительный интервал с уровнем значимости a=0,05.

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05.

Решение

1. Для определения степени тесноты связи обычно используют линейный коэффициент корреляции:

где , – выборочные дисперсии переменных x и y, – ковариация признаков. Соответствующие средние определяются по формулам:

,	,
,	.

Для расчета коэффициента корреляции (1.1) строим расчетную таблицу (табл. 1.2):

Таблица 1.2

	x	y	xy	x²	y²			e²
1	78	133	10374	6084	17689	148,77	-15,77	248,70
2	82	148	12136	6724	21904	152,45	-4,45	19,82
3	87	134	11658	7569	17956	157,05	-23,05	531,48
4	79	154	12166	6241	23716	149,69	4,31	18,57
5	89	162	14418	7921	26244	158,89	3,11	9,64
6	106	195	20670	11236	38025	174,54	20,46	418,52
7	67	139	9313	4489	19321	138,65	0,35	0,13
8	88	158	13904	7744	24964	157,97	0,03	0,00
9	73	152	11096	5329	23104	144,17	7,83	61,34
10	87	162	14094	7569	26244	157,05	4,95	24,46
11	76	159	12084	5776	25281	146,93	12,07	145,70
12	115	173	19895	13225	29929	182,83	-9,83	96,55
Итого	1027	1869	161808	89907	294377		0	1574,92
Среднее значение	85,58	155,75	13484,00	7492,25	24531,42

По данным таблицы находим:

, ,

,. .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость.

Для оценки статистической значимости коэффициента корреляции рассчитывают двухсторонний t-критерий Стьюдента:

который имеет распределение Стьюдента с k = n –2 и уровнем значимости a.

В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал, который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера:

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[ z ], а затем делают обратное
z -преобразование.

Применяя z -преобразование для найденного коэффициента корреляции, получим

Доверительный интервал для M(z) будет иметь вид

где t _g находится с помощью функции Лапласа F(t _g)=g/2. Для g=0,95 имеем t _g=1,96. Тогда

или

Обратное z -преобразование осуществляется по формуле

В результате находим

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b₀ и b₁ – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

где b ₀ и b ₁ – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:

где – отклонения y_i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных (1.12) является равенство нулю ее частных производных по неизвестным параметрам b₀ и b₁. В результате получаем систему нормальных уравнений:

Решая систему (1.13), найдем

По данным таблицы (1.2) находим

;

Получено уравнение регрессии:

Параметр b ₁ называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Рис. 1.1

Отметим, что уравнение регрессии (1.16) можно получить матричным способом, что особенно удобно при компьютерном моделировании подобных процессов. Введем следующие матрицы

, , .

Тогда коэффициенты множественной регрессии можно найти следующим образом:

Здесь матрицы перемножались с пользованием программы MathCAD.

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки статистической значимости каждого коэффициента регрессии. Для этого вычислим сначала стандартную ошибку регрессии

. (1.17)

В нашем случае

Значимость коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента:

, (1.18)

где – стандартная ошибка коэффициента регрессии.

Для коэффициента b ₁ оценку дисперсии можно получить по формуле:

. (1.19)

В нашем случае

Следовательно,

Отметим, что для парной линейной регрессии t -критерий для коэффициента корреляции r_xy и коэффициента регрессии b ₁ совпадают.

Для коэффициента b ₀ оценку дисперсии можно получить по формуле:

. (1.20)

Тогда

Критическое значение критерия было уже найдено . Поскольку и , то коэффициенты регрессии значимо отличаются от нуля. Следовательно, для них можно построить доверительные интервалы.

Отметим, что оценки (1.19) и (1.20) также можно получить матричным способом:

где . Отсюда получаем, что и .

Определим предельные ошибки для каждого показателя:

, ,

где . В нашем случае

, .

В результате, получаем следующие доверительные интервалы для коэффициентов регрессии:

и ,

или

и .

Замечание. Задачи регрессионного анализа можно решать с использованием компьютеров. Например, можно использовать программу Excel. Для этого достаточно ввести свои данные и использовать пакет Анализ данных. Опишем кратко последовательность действий:

1) Проверьте доступ к пакету анализа. В главном меню последовательно выберите Сервис / Надстройки. Установите флажок Пакет анализа.

2) В главном меню выберите Сервис / Анализ данных / Регрессия. Щелкните по кнопке ОК.

3) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон столбцов, содержащие значения факторов независимых признаков.

Результаты регрессионного анализа представлены в таблице 1.3.

Отметим, что в компьютерных программах вычисляется не критическое значение критерия, допустим T_крит, а вероятность . Если P <a, то нет оснований отклонять нулевую гипотезу, если P >a, то нулевая гипотеза отклоняется.

Таблица 1.3

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R	0,721025214
R-квадрат	0,519877359
Нормированный R-квадрат	0,471865095
Стандартная ошибка	12,5495908
Наблюдения	12
ДИСПЕРСИОННЫЙ АНАЛИЗ
	df	SS	MS	F	Значимость F
Регрессия	1	1705,327706	1705,327706	10,82801173	0,008141843
Остаток	10	1574,922294	157,4922294
Итого	11	3280,25

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	76,9764852	24,21156138	3,179327594	0,0098300668	23,02975528	130,9232151
Переменная X 1	0,920430553	0,279715587	3,290594434	0,008141843	0,29718579	1,543675827

3. Оценку качества построенной модели дает коэффициент детерминации.

Коэффициент детерминации для линейной модели равен квадрату коэффициента корреляции

Это означает, что 52% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.

Значимость уравнения регрессии проверяется при помощи F -критерия Фишера, для линейной парной регрессии он будет иметь вид

, (1.21)

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k ₁=1 и k ₂= n –2.

В нашем случае

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством .

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y_p определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x_p. В нашем случае прогнозное значение прожиточного минимума составит: , тогда прогнозное значение прожиточного минимума составит:

Средняя стандартная ошибка прогноза вычисляется по формуле:

. (1.22)

В нашем случае

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Доверительный интервал прогноза

или

Выполненный прогноз среднемесячной заработной платы оказался надежным (g=0,95), но неточным, т.к. относительная точность прогноза составила 29,4/161,2×100%=18,2%.

1 2 3

Подборка статей по вашей теме: