Примеры решения задач. По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи

По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи.

Таблица 4

Расходы на продукты питания, , тыс. руб. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8
Доходы семьи, , тыс. руб. 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7

1. Постройте линейную регрессионную модель связи переменных, где интерпретируется как объясняемая переменная, а – объясняющая, используя оценки наименьших квадратов.

2. Рассчитайте линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

3. Оцените статистическую значимость параметров регрессии и корреляции на уровне значимости α =0,05 с помощью -критерия Фишера и -критерия Стьюдента.

4. Выполните прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума , составляющем 110% от среднего уровня.

5. Оцените точность прогноза, рассчитав 95% доверительные интервалы для среднего и индивидуального значения объясняемой переменной при том же значении .

6. Найдите с надежностью 0,95 интервальные оценки параметров уравнения регрессии α и β.

7. На одном графике (графике подбора) постройте исходные данные и теоретическую прямую. Сделайте вывод.

Решение

1. Предположим, что связь между доходами семьи и расходами на продукты питания линейная. Для подтверждения нашего предположения построим поле корреляции.

Рисунок 2. Поле корреляции

По графику видно, что точки выстраиваются в некоторую прямую линию.

Для удобства дальнейших вычислений составим таблицы.

Таблица 5

i xi уi
             
  1,2 0,9 -7,75 60,063 -1,4375 2,066
  3,1 1,2 -5,85 34,223 -1,1375 1,294
  5,3 1,8 -3,65 13,323 -0,5375 0,289
  7,4 2,2 -1,55 2,403 -0,1375 0,019
  9,6 2,6 0,65 0,423 0,2625 0,069
  11,8 2,9 2,85 8,123 0,5625 0,316
  14,5 3,3 5,55 30,803 0,9625 0,926
  18,7 3,8 9,75 80,103 1,4625 2,139
Итого 71,6 18,7   244,47   7,119
Среднее значение 8,95 2,34   30,56   0,89

Таблица 6

  , %
                   
  1,2 0,9 1,08 1,44 0,81 1,038 -0,138 0,0190 15,33
  3,1 1,2 3,72 9,61 1,44 1,357 -0,157 0,0246 13,08
  5,3 1,8 9,54 28,09 3,24 1,726 0,074 0,0055 4,11
  7,4 2,2 16,28 54,76 4,84 2,079 0,121 0,0146 5,50
  9,6 2,6 24,96 92,16 6,76 2,449 0,151 0,0228 5,81
  11,8 2,9 34,22 139,24 8,41 2,818 0,082 0,0067 2,83
  14,5 3,3 47,85 210,25 10,89 3,272 0,028 0,0008 0,85
  18,7 3,8 71,06 349,69 14,44 3,978 -0,178 0,0317 4,68
Итого 71,6 18,7 208,71 885,24 50,83 18,717 -0,017 0,1257 52,19
Среднее значение 8,95 2,34 26,09 110,66 6,35 2,34 0,0157 6,52
S 5,53 0,943
var 30,56 0,89

Рассчитаем МНК-оценки параметров линейного уравнения парной регрессии . Для этого воспользуемся формулами (2.6) и (2.7):

;

.

Получили уравнение: . То есть с увеличением дохода семьи на 1000 руб. расходы на питание увеличиваются на 168 руб.

2. Уравнение линейной регрессии всегда дополняется показателем тесноты связи – линейным коэффициентом корреляции (формула 1.7):

.

Близость коэффициента корреляции к 1 указывает на тесную линейную связь между признаками.

Для модели линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции. Коэффициент детерминации показывает, что уравнением регрессии объясняется 98,7% дисперсии результативного признака, а на долю прочих факторов приходится лишь 1,3%. То есть 98,7% вариации расходов на продукты питания () объясняется вариацией фактора – дохода семьи.

Среднюю ошибку аппроксимации находим по формуле (2.31) с помощью столбца 10 табл. 5. говорит о хорошем качестве уравнения регрессии, т. е. свидетельствует о хорошем подборе модели к исходным данным.

3. Оценим качество уравнения регрессии в целом с помощью -критерия Фишера. Рассчитаем фактическое значение -критерия. Так как коэффициент детерминации уже известен, проще всего использовать формулу (2.36):

где m – число оцениваемых параметров уравнения регрессии;

n – число наблюдений.

Табличное значение -критерия найдем по приложению 1 : . Так как , то признается статистическая значимость уравнения в целом.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитаем -критерий Стьюдента каждого из показателей. Определим оценку дисперсии ошибки прогноза по формуле (2.14):

.

Рассчитаем случайные ошибки параметров линейной регрессии и коэффициента корреляции по формулам (2.38), (2.39) и (2.40):

Фактические значения -статистик:

,

,

Табличное значение -критерия Стьюдента при и числе степеней свободы есть . Так как фактические значения -статистики превосходят табличное значение ( и ), то признаем статистическую значимость параметров регрессии и показателя тесноты связи.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза.

Найдем прогнозное значение результативного фактора при значении признака-фактора, составляющем 110% от среднего уровня (тыс. руб.). Найдем предполагаемые расходы на питание при данных доходах.

(тыс. руб.).

Таким образом, если доходы семьи составят 9,845 тыс. руб., то расходы на питание будут 2,490 тыс. руб.

5. Оценим точность прогноза, рассчитав 95% доверительные интервалы для среднего и индивидуального значения объясняемой переменной при том же значении .

Оценку дисперсии значения , найденного по уравнению регрессии рассчитаем по формуле (2.20):

Доверительный интервал для математического ожидания (среднего значения) , найденного по уравнению регрессии по формуле (2.21)

,

Таким образом, с вероятностью 0,95, семьи с доходами 9845 руб. будут расходовать на продукты питания в среднем от 2360 руб. до 2670 руб.

При определении доверительного интервала для индивидуальных значений y 0зависимой переменной используем формулу (2.22)

Найдем доверительный интервал прогноза по формуле (2.23).

Таким образом, с вероятностью 0,95, семья с доходом 9845 руб. будет расходовать на продукты питания от 2113 руб. до 2867 руб.

6. Рассчитаем доверительные интервалы для параметров регрессии и : и . Получим, что и .

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в указанных границах, не принимают нулевых значений, т. е. не являются статистически незначимыми и существенно отличны от нуля.

7. Теперь на одном графике изобразим исходные данные и линию регрессии.

Рисунок 3. График подбора

С помощью графика подбора можно наглядно убедиться, что построенная модель хорошо аппроксимирует исходные данные.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: