Практическая часть. Задание 1. В таблице П2 Приложения 2 приведены показатели уровня жизни по территориям регионов Республики Беларусь за 200хг

Задание 1. В таблице П2 Приложения 2 приведены показатели уровня жизни по территориям регионов Республики Беларусь за 200Хг. Провести анализ зависимости среднедневной заработной платы, руб. (Y) от среднедушевого прожиточного минимума в день одного трудоспособного, руб. ().

Последовательность проведения регрессионного анализа:

1) открыть модуль Multiple regression(Множественная регрессия);

2) создать или открыть файл данных (zarplata.sta);

3)идентифицировать переменные – выбрать список зависимых и независимых переменных;

4) выбрать вид модели;

4) провести оценивание параметров модели;

5) проверить качество полученных оценок параметров;

6) провести анализ адекватности модели.

В пакете STATISTICA откройте модульMultiple regression (Множественная регрессия). В стартовой панели модуля нажмите кнопку OpenData(Открыть данные) и откройте файл данных zarplata.sta, в котором находятся исходные данные, либо выполните команду File/New Data и введите исходные данные для переменных X,Yв столбцы Var1 и Var2.При этом лишние столбцы Var3-Var10 можно удалить командой Variablesà Delete меню Edit, строки – добавить командой Casesà Add меню Edit ( см. рис.11.1).

Рис.11.1 – Исходные данные для построения модели

Сделайте активным окно с таблицей данных и в меню Analisis выберите команду ResumeAnalisis. На экране появится окно Multipleregression. Далее с помощью кнопки Variables(Переменные) перейдите в окно Select dependent and independent variable list (Выбрать списки зависимых и независимых переменных) и выберите переменные для анализа. Зависимую переменную Y – среднедневная заработная плата, руб. – внесите в строку Dependentvariablelist(Список зависимых переменных),независимую переменную X – среднедушевой прожиточный минимум в день одного трудоспособного, руб. – внесите в строку Independentvariablelist(Список независимых переменных) инажмите кнопку ОК.Вы вновь окажетесь в стартовой панели модуля (см.рис. 11.2).

Рис.11.2 – Окно Multiple regression

Переменные для анализа выбраны. Никаких дополнительных установок в стартовой панели в данном случае производить не нужно. Нажмите кнопку ОК. На экране перед вами появится диалоговое окно MultipleRegressionResults (Результаты множественнойрегрессии).

В диалоговом окне MultipleRegressionResults (Результаты множественнойрегрессии) можно просмотреть результаты оценивания, которые представлены в численном и графическом виде(рис. 11.3).

Окно результатов анализа имеет следующую структуру: верх окна — информационный. Он состоит из двух частей: в первой части содержится основная информация о результатах оценивания, во второй высвечиваются значимые регрессионные коэффициенты. Внизу окна Результатымножественнойрегрессии находятся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.

Рассмотрим вначале информационную часть окна. В ней содержатся краткие сведения о результатах анализа, а именно:

• Dep. Var. (Имя зависимой переменной) - в данном случае Y;

• No. of Cases (Число наблюдений, по которым построена регрессия) - в примере это число равно 16;

Рис. 11.3 – Окно Результаты множественной регрессии

• Multiple R (Коэффициент множественной корреляции);

• R-square (R2, - к оэффициент детерминации,квадрат коэффициентамножественной корреляции) используется для статистической оценки тесноты связи между результативным и объясняющими показателями. Он выражает долю объясненной изучаемыми факторами дисперсии результативного признака и служит важной характеристикой качества построенной модели. Этот коэффициент может принимать значения от 0 до 1. Несмещенной оценкой R2 служит скорректированный на потерю степеней свободы коэффициент множественной детерминации (Adjusted R2);

•Adjusted R-square (Скорректированный коэффициентдетерминации), определяемый как

Adjusted R-square = 1 - (1- R2, )ּ(n/(n–p)),

где n — число наблюдений в модели, p — число параметров модели (число независимых переменных плюс 1, так как в модель включен свободный член);

• Std. Error of estimate (Стандартная ошибкаоценки) - эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой;

• Intercept (Оценка свободного члена регрессии) - значение коэффициента В0 в уравнении регрессии;

• Std. Error (Стандартная ошибка оценки свободного члена) - стандартная ошибка коэффициента В 0 в уравнении регрессии;

• t(df) and p-value (Значение t-критерия и уровень р) - t -критерий используется для проверки гипотезы о равенстве 0 свободного члена регрессии;

• F– критерий Фишера, определяющий значимость полученной модели. Оценивает вероятность случайного отклонения от нуля коэффициента детерминации при отсутствии связи между элементами совокупности. Желательно, чтобы полученный минимальный уровень значимости F -критерия (p-level) был меньше 0,05;

• df— число степеней свободы F-критерия;

• р — уровень значимости.

В информационной части посмотрим прежде всего на значения коэффициента детерминации, которые лежат в пределах от 0 до 1. В нашем примере R 2, = 0,885. Это значение показывает, что построенная регрессия объясняет более 88,5% разброса значений переменной Y относительно среднего.

Далее посмотрите на значение F -критерия и уровень значимости р. F -критерий используется для проверки гипотезы о значимости регрессии. В данном случае для проверки гипотезы, утверждающей, что между зависимой переменной Y и независимой переменной Xнет линейной зависимости, т. е. В1 = 0, против альтернативы В1 не равен 0. В данном примере мы имеем большое значение F -критерия — 108,12, а представленный в окне уровень значимости p = 0,00 показывает, что построенная регрессия высоко значима.

Рассмотрим вторую часть информационного окна. В ней представлена информация о значимых и незначимых оценках регрессионных коэффициентов. При этом высвечивается строка x beta = 0,941 и приводится пояснение Significant beta's are highlighted (Значимые beta высвечены). Отметим, что в данном случае beta есть стандартизованный коэффициент В1, т. е. коэффициент при независимой переменной x.

Перейдем в функциональную часть окна результатов.

Прежде всего нажмите кнопку Regression summary (Итоговый результат регрессии). На экране появится Spreadsheet (Электронная таблица вывода), в которой представлены итоговые результаты оценивания регрессионной модели (рис. 11.4).

Рис. 11.4 – Итоговая таблица регрессии

В первом столбце таблицы даны значения коэффициентов beta (стандартизованные коэффициентырегрессионного уравнения ), во втором — стандартные ошибки этих коэффициентов, в третьем — точечные оценки параметров модели:

· cвободный член В0= 3816,154;

· коэффициент В1 (при независимой переменной X) = 1,411.

Далее представлены стандартные ошибки для В0, В1, значения статистик t- критерия. По итоговой таблице регрессии можно построить модель, которая имеет вид

Y = 1,411ּX +3816.154.

Оценка адекватности модели - важный элемент анализа. После того как доказана адекватность модели, полученные результаты можно уверенно использовать для дальнейших действий.

Анализ адекватности основывается на анализе остатков. Остатки представляют собой разности между наблюдаемыми значениями и модельными, т.е. значениями, подсчитанными по модели с оцененными параметрами. Графики зависимости регрессионных остатков от экспериментальных значений исходных переменных позволяют проверить предположения об однородности и независимости ошибок, являющихся предпосылками применения метода наименьших квадратов, и локализовать выбросы. Если указанные допущения выполняются, графики будут представлять собой симметричное, случайное и равномерное распределения точек. Графики эмпирической функции распределения остатков на нормальной вероятностной бумаге (Probability plots) и гистограммы позволяют проверить справедливость предположения о нормальном распределении остатков.

Кроме этого, имеется возможность вычислить статистику Дарбина–Уотсона (Darbin-Watson Stat) для проверки наличия автокорреляции в остатках, вывести на экран (Display residuals&pred) и сохранить в файле (Save residuals) информацию о наблюдаемых и подобранных по модели значениях результативного показателя и остатках. Рекомендуется также построить график линейной зависимости предсказанных (подобранных по модели) значений зависимой переменной от наблюдаемых (Predicted & Observed), что позволяет наглядно изобразить результаты регрессионного анализа.

В модуле Множественная регрессия имеется специальное диалоговое окно, в котором проводится всесторонний анализ остатков. Нажав кнопку Residual Analysis(Анализ остатков) в окне Multiple Regression Results,можно перейти в окно анализа остатков Residual Analysis (Анализ остатков) (см. рис. 11.5).

Рис. 11.5 – Окно Residual Analysis

Нажмите в этом окне, например, кнопку Obs&residuals, на экране появится график (рис.11.6), который говорит о достаточной адекватности модели.

Нажав кнопкуPredicted & Observed), можно наглядно изобразить результаты регрессионного анализа: график линейной зависимости предсказанных (подобранных по модели) значений зависимой переменной от наблюдаемых (см. рис. 11.7).

Рис.11.6 – График наблюдаемых Рис. 11.7 – График наблюдаемых
переменных-остатков и предсказанных значений

Для получения описательной статистики в окне MultipleRegressionResultsнужно нажать кнопку Correlations&desc.stats,после чего на экране появится окно ReviewDescriptiveStatistics, из которого следует выбрать необходимые для анализа статистики (см. рис. 11.8).

Рис. 11.8 – Окно Review Descriptive Statistics

Чтобы получить прогноз значения зависимой переменной Y, в окнеMultipleRegressionResultsследует нажать кнопкуPredictdependentvarи в появившееся на экране окноSpecifyvaluesforindep.varsввести новое значение Х, например 5000 (см. рис. 11.9), и нажать ОК. В результате в окне Predictingvaluesfor(см. рис.11.10)на основании полученного ранее уравнения регрессии

Y = 1,411ּX +3816.154

будет рассчитано прогнозируемое значение Y (в данном случае 10871,28).

       
   
 
 


Рис.11.9 – Окно Specify values Рис.11.10 – Окно Predicting values for
for indep. vars  

Кроме аналитического расчета регрессионной модели,STATISTICAпозволяетпостроить модель графическим способом.

Задание 2. В соответствии с условием задания 1 (см. выше) построить и представить однофакторную линейную и нелинейную регрессионную модель зависимости среднедневной заработной платы, руб. (Y) от среднедушевого прожиточного минимума в день одного трудоспособного, руб. ().

Для расчета модели графическим способом необходимо в стартовой панели программы STATISTICAвыбрать модуль « Основныестатистики » («Basic Statistica»). В меню GraphsàStats2D Graphs выбрать команду Scatterplots(диаграммы рассеяния). На экране появится диалоговое окно для построения 2D диаграмм рассеяния разного вида (линейного, логарифмического, экспоненциального, полиномиального и т.д.), отражающих зависимость переменных X и Y (см. рис.11.11).

Рис.11.11 – Окно 2D Scatterplots.

Если выбрать Линейную (Linear ) зависимость и нажать ОК, на экране появится окно диаграммы рассеяния (рис.11.12) для выбранных переменных, причем в верхней части окна будет представлено уравнение регрессии.

Рис.11.12 – Диаграмма рассеяния. Линейная зависимость

Из окна 2D Scatterplotsщелчком правой клавиши мыши по линии тренда можно легко построить диаграмму рассеяния любого из перечисленных видов, причем в верхней части окна будет выводиться и соответствующее уравнение регрессии (рис. 11.13 и рис.11.14). Если выбрать полиномиальную зависимость, то очевидно, что, чем выше степень полинома, тем точнее линия тренда «ложится» на данные.

Рис.11.13– Диаграмма рассеяния. Рис.11.14– Диаграмма рассеяния.
Полиномиальная зависимость Экспоненциальная зависимость

Задания для самостоятельной работы

Задание1. Средствами модуля Multiple Regression установить связь между анализируемыми данными (см. таблицу 11.1), построить и проанализировать экономико-математическую однофакторную регрессионную модель, позволяющую получить прогноз результативного признака на последующие периоды. Вывести всю возможную статистическую информацию. Построить график наблюдаемых и предсказанных значений. Аналитически и графически оценить качество модели.

Таблица 11.1. Показатели деятельности предприятия

Номер предприятия Выработка продукции на одного работника тыс. руб. Новые ОПФ, % Удельный вес рабочих высокой квалификации % Коэффициент использования оборудования
Y x1 x2 x3
    3,9   0,76
    3,9   0,78
    3,7   0,75
        0,78
    3,8   0,74
    4,8   0,81
    5,4   0,81
    4,4   0,82
    5,3   0,82
    6,8   0,82
        0,84
    6,4   0,84
    6,8   0,8
    7,2   0,8
        0,85
    8,2   0,85
    8,1   0,88
    8,5   0,87
    9,6   0,89
        0,85

Варианты заданий

Варианты 1-4: результативный признак – Y, факторный признак – X1.

Варианты 5-7: результативный признак – Y, факторный признак – X2.

Варианты 8-10: результативный признак – Y, факторный признак – X3.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: