После определения наиболее существенных факторных признаков, влияющих на результативный признак, не менее важно установить их математическое описание (уравнение), дающее возможность численно оценивать результативный признак через факторные признаки.
Уравнение, выражающее изменение средней величины результативного признака в зависимости от значений факторных признаков, называется уравнением регрессии.
Регрессионный анализ - комплексное использование в определенной последовательности различных статистических методов обработки информации, позволяющее при некоторых условиях найти вид уравнения регрессии и вычислить значения результативного признака Y по значениям факторных признаков.
Обычно уравнение регрессии представляется в виде следующей зависимости (Х9, Хгь Х»5 взяты в качестве иллюстрации):
¥= а + Ь *Х, + c*X^i + d*X4s.
Здесь а, Ь, с, d - неизвестные коэффициенты, которые определяются методами регрессионного анализа. Уравнение же называется уравнением множественной линейной регрессии.
Иногда достаточно выбрать один наиболее существенный признак и найти математическую зависимость между результативным признаком и выбранным факторным признаком, например: Y = а + Ь*Ху (прямая линия) или ¥= а + b*Xy + c*X2y (парабола). Эти уравнения называются уравнениями парной или простой регрессии.
Естественно, оценка результативного признака без учета остальных факторных признаков (в нашем примере - Хгь Х4э) будет более грубой, но расчеты - менее трудоемкими, и иногда такой приближенной оценки бывает достаточно.
Качеством построения уравнения регрессии является средняя ошибка аппроксимации или стандартизированная ошибка оценки.
Итак, проведение регрессионного анализа позволяет разделить его на три этапа:
1) выбор формы зависимости (вида уравнения) на основе статистических данных;
2) вычисление коэффициентов выбранного уравнения;
3) оценка достоверности выбранного уравнения.
Используя уравнения регрессии, можно прогнозировать поведение различных показателей, например уровня преступности, если имеются статистические или прогнозные данные о факторных признаках, влияющих на него.
Прогнозирование уровня преступности с лагом 0. В текущем году на преступность наиболее сильное влияние оказали такие факторные признаки, как «уровни ранее судимых» (г4=0,96), «уровни незанятых» (г5=0,91), «потребление алкоголя» (г»=0,91). Будем их учитывать при построении уравнения регрессии.
Для этого дополним таблицу №4 рядами динамики «уровни ранее судимых (на 10 тыс.)», «доля незанятых (на 100 тыс.)», «потребление алкоголя (на душу населения в литрах)» из табл. 3.8.8. В результате приходим к табл. 3.8.12.
Таблица №4 Построение уравнения множественной регрессии с лагом О
А | В | С | D | Е | F | G | Н | I | J | К | L | |
X | ||||||||||||
х*х | ||||||||||||
х*х*х | l | |||||||||||
х*х*х*х | 8] | |||||||||||
Уровень преступности | 75,2 | 72,7 | 63,7 | 50,9 | 60,8 | 102,4 | 128,1 | |||||
Полином четвертой степени | 75,8 | 81,1 | 71,0 | 57,4 | 49,0 | 51,4 | 66,8 | 94,6 | 167,8 | 195,9 | ||
Доля ранее судимых | 144,9 | 164,2 | 170,9 | 186,9 | 206,1 | |||||||
Доля незанятых | 95,7. | 77,7 | 96,3 | 82,3 | 126,6 | 144,2 | 167,6 | |||||
Потребление алкоголя | 5,9 | 5,2 | 4,6 | 4,7 | 5,1 | 6,2 | 6,6 | 7,45 | 8,53 | |||
Множественная регрессия | 86,4 | 72,7 | 71,2 | 65,8 | 46,1 | 48,1 | 59,6 | 106, | 196,1 |
Поскольку у трех выделенных факторных признаков нет данных за 10-й и 11-й периоды, используем метод экстраполяции. Однако сначала необходимо изучить три динамических ряда с помощью диаграмм. Эта утомительная процедура показывает, что полином четвертой степени описывает кривые лучше, чем все другие кривые (R-квадрат у него выше), однако его тренд после девятого периода меняется и стремится к снижению. Поэтому выбор теоретической кривой зависит от экспертного исследования.
Будем считать, что такой кривой является парабола, т.е. полином второй степени. Хотя у параболы R-квадрат меньше, чем у полинома четвертой степени, однако он значительно выше по сравнению с другими кривыми.
Итак, выполняем экстраполяцию трех динамических рядов со сглаживанием их по параболе и прогнозированием на 10-й и 11-й периоды. С помощью «Мастера функций» и встроенной функции «Тенденция» осуществляем прогноз трех динамических рядов в строках 7:9 в клетки К7:К9 и L7:L9.
После того, как подготовлены прогнозные данные трех факторных признаков на 10-й и 11-й периоды, осуществим прогноз уровня преступности на основе уравнения множественной регрессии. Для этого активизируем клетку В 10. Снова используя «Мастера функций», вызываем функцию «Тенденция» и заполняем в ее диалоговом окне необходимые параметры. Далее копируем получившуюся формулу из клетки В 10 в диапазон клеток С10:ЫО. Результаты представлены в табл. 3.8.12.
Сравнивая прогнозы уровня преступности на основе полинома четвертого порядка и уравнения множественной регрессии, убеждаемся в хорошем совпадении значений в ячейках L6 и L10 (195,9 и 196,1) в 11-м периоде.
Прогнозирование уровня преступности с лагом 1 и 2. При построении уравнения множественной регрессии с лагом 0 нам приходилось прогнозировать факторные признаки, являющиеся переменными в этом уравнении. Их экстраполяция в 10-й, 11-й периоды может привести к дополнительным ошибкам в прогнозе уровня преступности.
Обойти этот шаг можно, если построить уравнение регрессии, включив в него признаки, которые проявят себя в 10-м и 11-м периодах. К ним относятся доля городского населения (г=0,72, лаг 1), доля иммигрантов (г=0,89, лаг 2), доля наркоманов (г=0,73, лаг 2), плотность сотрудников УР (г=0,76, лаг 2). Дополним рабочий лист Excel 5.0 для Windows этими рядами, которые займут строки 12:1.