Тема: Парная линейная регрессия и корреляция

Содержание занятия:

1. Дисперсионный анализ результатов регрессии.

2. Статистическая оценка значимости уравнения и параметров уравнения линейной регрессии.

3.Расчет относительной ошибки аппроксимации. Оценка качества построенной модели с помощью средней ошибки аппроксимации.

4.Использование статистической функции ЛИНЕЙН и программы анализ данных для определения параметров регрессии.

Литература: [1] стр48-57, [2] стр6-9, [3] стр89-114, [11] стр7-11

Задание №1 Имеются следующие исходные данные:

Предприятие Выпуск продукции, тыс.ед., х Затраты на производство, млн. тенге, у
     

Провести дисперсионный анализ результатов регрессии и статистическую оценку значимости уравнения и параметров уравнения линейной регрессии.

Методические указания по выполнению задания:

F-тест – оценивание качества уравнения регрессии - состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера. Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

где n - число единиц по совокупности; m -число параметров при переменных х.

Табличное значение при уровне значимости 0,05 составляет 5,32.

Поскольку Fтабл < Fфакт, то гипотеза Н0 отклоняется и признается статистическая значимость и надежность уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t–критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе формирования показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной стандартной ошибки:

.

Стандартные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

Значения t-критерия Стьюдента:

Табличное значение t-критерия Стьюдента при уровне значимости 0,05 равно 2,306. Сравним фактические значения с табличным значением:

Гипотеза Н0 о случайной природе формирования параметра a принимается и признается статистическая незначимость данного показателя. А параметр b и линейный коэффициент корреляции r не случайно отличаются от нуля и сформировались под влиянием действующего фактора х, гипотеза отклоняется и признается их статистическая значимость и надежность.

Для расчета доверительных интервалов определяются предельные ошибки D для каждого показателя: .

Доверительные интервалы рассчитываются следующим образом:

Задание №2 Имеются следующие исходные данные:

Предприятие Выпуск продукции, тыс.ед., х Затраты на производство, млн. тенге, у
     

Оценить качество построенного уравнения регрессии с помощью средней ошибки аппроксимации. Определить параметров регрессии при помощи статистической функции ЛИНЕЙН и программы анализ данных.

Методические указания по выполнению задания:

По результатам расчетов, сделанных на предыдущих занятиях заполним следующую таблицу:

x y
      31,09 141,84 104,92 68,01 104,92 178,76 215,67 141,84 104,92 68,01 -1,09 8,16 -4,92 1,99 -4,92 1,24 -5,67 8,16 -4,92 1,99 3,63 5,43 4,93 2,84 4,93 0,69 2,7 5,44 4,93 2,84
Итого         38,38
среднее 3,3   - - 3,838

Рассчитаем относительные ошибки аппроксимации (6 графа), используя формулу:

и т.д.

Средняя ошибка аппроксимации составит: .

Качество построенной модели оценивается как хорошее, т. к. в среднем расчетные значения отклоняются от фактических значений на 3,83% и не превышают допустимого предела 8-10%

С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики побора линии регрессии, остатков и нормальной вероятности. Порядок действий следующий:

1) в главном меню выберите пункты Сервис/ Анализ данных/ Регрессия. Щелкните по кнопке ОК.

2) заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал Х - диапазон, содержащий данные факторов независимого признака;

Метки – флажок, который указывает содержит ли первая строка названия столбцов или нет;

Константа-ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал – указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист – можно задать произвольное имя нового листа.

Щелкните по кнопке ОК.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: