Общие понятие регрессионного анализа

После определения наибо­лее существенных факторных признаков, влияющих на результатив­ный признак, не менее важно установить их математическое описание (уравнение), дающее возможность численно оценивать результатив­ный признак через факторные признаки.

Уравнение, выражающее изменение средней величины резуль­тативного признака в зависимости от значений факторных признаков, называется уравнением регрессии.

Регрессионный анализ - комплексное использование в опреде­ленной последовательности различных статистических методов обра­ботки информации, позволяющее при некоторых условиях найти вид уравнения регрессии и вычислить значения результативного признака Y по значениям факторных признаков.

Обычно уравнение регрессии представляется в виде следующей зависимости (Х9, Хгь Х»5 взяты в качестве иллюстрации):

¥= а + Ь *Х, + c*X^i + d*X4s.

Здесь а, Ь, с, d - неизвестные коэффициенты, которые опреде­ляются методами регрессионного анализа. Уравнение же называется уравнением множественной линейной регрессии.

Иногда достаточно выбрать один наиболее существенный при­знак и найти математическую зависимость между результативным признаком и выбранным факторным признаком, например: Y = а + Ь*Ху (прямая линия) или ¥= а + b*Xy + c*X2y (парабола). Эти уравне­ния называются уравнениями парной или простой регрессии.

Естественно, оценка результативного признака без учета ос­тальных факторных признаков (в нашем примере - Хгь Х4э) будет бо­лее грубой, но расчеты - менее трудоемкими, и иногда такой прибли­женной оценки бывает достаточно.

Качеством построения уравнения регрессии является средняя ошибка аппроксимации или стандартизированная ошибка оценки.

Итак, проведение регрессионного анализа позволяет разделить его на три этапа:

1) выбор формы зависимости (вида уравнения) на основе стати­стических данных;

2) вычисление коэффициентов выбранного уравнения;

3) оценка достоверности выбранного уравнения.

Используя уравнения регрессии, можно прогнозировать поведе­ние различных показателей, например уровня преступности, если имеются статистические или прогнозные данные о факторных при­знаках, влияющих на него.

Прогнозирование уровня преступности с лагом 0. В текущем году на преступность наиболее сильное влияние оказали такие фак­торные признаки, как «уровни ранее судимых» (г4=0,96), «уровни не­занятых» (г5=0,91), «потребление алкоголя» (г»=0,91). Будем их учиты­вать при построении уравнения регрессии.

Для этого дополним таблицу №4 рядами динамики «уровни ра­нее судимых (на 10 тыс.)», «доля незанятых (на 100 тыс.)», «потребление алкоголя (на душу населения в литрах)» из табл. 3.8.8. В результате приходим к табл. 3.8.12.

Таблица №4 Построение уравнения множественной регрессии с лагом О

  А В С D Е F G Н I J К L
  X                      
  х*х                      
  х*х*х l                    
  х*х*х*х     8]                
  Уровень преступ­ности   75,2 72,7 63,7   50,9 60,8 102,4 128,1    
  Полином четвер­той степени 75,8 81,1 71,0 57,4 49,0 51,4 66,8 94,6   167,8 195,9
  Доля ранее судимых       144,9       164,2 170,9 186,9 206,1
  Доля незанятых       95,7. 77,7 96,3 82,3   126,6 144,2 167,6
  Потребление ал­коголя     5,9 5,2 4,6 4,7 5,1 6,2 6,6 7,45 8,53
  Множественная регрессия 86,4 72,7 71,2 65,8 46,1 48,1 59,6 106,     196,1

Поскольку у трех выделенных факторных признаков нет данных за 10-й и 11-й периоды, используем метод экстраполя­ции. Однако сначала необходимо изучить три динамических ря­да с помощью диаграмм. Эта утомительная процедура показы­вает, что полином четвертой степени описывает кривые лучше, чем все другие кривые (R-квадрат у него выше), однако его тренд после девятого периода меняется и стремится к сниже­нию. Поэтому выбор теоретической кривой зависит от эксперт­ного исследования.

Будем считать, что такой кривой является парабола, т.е. поли­ном второй степени. Хотя у параболы R-квадрат меньше, чем у поли­нома четвертой степени, однако он значительно выше по сравнению с другими кривыми.

Итак, выполняем экстраполяцию трех динамических рядов со сглаживанием их по параболе и прогнозированием на 10-й и 11-й пе­риоды. С помощью «Мастера функций» и встроенной функции «Тенденция» осуществляем прогноз трех динамических рядов в стро­ках 7:9 в клетки К7:К9 и L7:L9.

После того, как подготовлены прогнозные данные трех фактор­ных признаков на 10-й и 11-й периоды, осуществим прогноз уровня преступности на основе уравнения множественной регрессии. Для этого активизируем клетку В 10. Снова используя «Мастера функций», вызываем функцию «Тенденция» и заполняем в ее диалоговом окне необходимые параметры. Далее копируем получившуюся формулу из клетки В 10 в диапазон клеток С10:ЫО. Результаты представлены в табл. 3.8.12.

Сравнивая прогнозы уровня преступности на основе полинома четвертого порядка и уравнения множественной регрессии, убежда­емся в хорошем совпадении значений в ячейках L6 и L10 (195,9 и 196,1) в 11-м периоде.

Прогнозирование уровня преступности с лагом 1 и 2. При по­строении уравнения множественной регрессии с лагом 0 нам прихо­дилось прогнозировать факторные признаки, являющиеся перемен­ными в этом уравнении. Их экстраполяция в 10-й, 11-й периоды мо­жет привести к дополнительным ошибкам в прогнозе уровня пре­ступности.

Обойти этот шаг можно, если построить уравнение регрессии, включив в него признаки, которые проявят себя в 10-м и 11-м перио­дах. К ним относятся доля городского населения (г=0,72, лаг 1), доля иммигрантов (г=0,89, лаг 2), доля наркоманов (г=0,73, лаг 2), плотность сотрудников УР (г=0,76, лаг 2). Дополним рабочий лист Excel 5.0 для Windows этими рядами, которые займут строки 12:1.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: