Корреляционный анализ решает следующие задачи: изменение степени связи двух и более временных рядов; отбор факторов, оказывающих наибольшее влияние на результирующий признак на основании измерения степени связности между рядами; обнаружение ранее не известных связей. Корреляция непосредственно не выявляет функциональные связи между явлениями, но устанавливает численное значение этих связей и достоверность суждений об их наличии. Основными средствами анализа являются парные, множественные коэффициенты корреляции, частные коэффициенты корреляции [20,42].
Общее назначение регрессионного анализа состоит в анализе связи между одной или несколькими независимыми переменными (называемыми также регрессорами, факторными или экзогенными признаками) и зависимой переменной (результирующим или эндогенным признаком):
.
Регрессия – это условное математическое ожидание (зависимость математического ожидания выходной переменной от ожидания входной):
При регрессионном анализе решаются следующие задачи [22,42]:
|
|
1. Установление форм зависимости между переменными (идентификация);
2. Определение функции регрессии (сводится к определению неизвестных параметров модели);
3. Оценка неизвестных значений зависимой переменной (получение прогноза).
В зависимости от количества регрессоров различают парную (один регрессор) и множественную регрессию. Так, уравнение парной регрессии определяет зависимость прогнозируемой переменной от одной независимой, а множественной регрессии – от нескольких независимых переменных.
В зависимости от вида связи между факторами различают линейную и нелинейную регрессию.
Линейная регрессионная модель имеет вид:
.
Линейные модели (в более общем случае - линейно-параметризованные) могут быть записаны в виде скалярного произведения вектора неизвестных коэффициентов и вектора базисных функций:
,
где , , .
Нелинейно-параметризованную модель нельзя представить в виде подобного скалярного произведения, т.е.
.
Общая вычислительная задача, которую требуется решать при анализе методом регрессии, состоит в подгонке некоторой функции к заданному набору точек. Линия регрессии выражает наилучшее предсказание зависимой переменной по независимым переменным. Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой (как показано на диаграмме рассеяния). Очевидно, что чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем лучше построена модель регрессии, и тем точнее будет полученный с ее использованием прогноз.
|
|
Часто, прежде чем проводить корреляционно-регрессионный анализ, необходимо исключить из исследуемых рядов тенденцию.
Таким образом, уравнение регрессии позволяет установить статистическую взаимосвязь изучаемых показателей и, в случае ее устойчивости, дать аналитические и прогнозные оценки зависимой переменной. Другими словами, по данным периода ретроспекции строится уравнение регрессии, по которому и производится расчет прогнозных значений.
Основное концептуальное ограничение метода корреляционно-регрессионного анализа состоит в том, что он позволяет обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются.