Корреляционно-регрессионный анализ: понятие, задачи, ограничения

Корреляционный анализ решает следующие задачи: изменение степени связи двух и более временных рядов; отбор факторов, оказывающих наибольшее влияние на результирующий признак на основании измерения степени связности между рядами; обнаружение ранее не известных связей. Корреляция непосредственно не выявляет функциональные связи между явлениями, но устанавливает численное значение этих связей и достоверность суждений об их наличии. Основными средствами анализа являются парные, множественные коэффициенты корреляции, частные коэффициенты корреляции [20,42].

Общее назначение регрессионного анализа состоит в анализе связи между одной или несколькими независимыми переменными  (называемыми также регрессорами, факторными или экзогенными признаками) и зависимой переменной  (результирующим или эндогенным признаком):

.

Регрессия – это условное математическое ожидание (зависимость математического ожидания выходной переменной от ожидания входной):

При регрессионном анализе решаются следующие задачи [22,42]:

1. Установление форм зависимости между переменными (идентификация);

2. Определение функции регрессии (сводится к определению неизвестных параметров модели);

3. Оценка неизвестных значений зависимой переменной (получение прогноза).

В зависимости от количества регрессоров различают парную (один регрессор) и множественную регрессию. Так, уравнение парной регрессии определяет зависимость прогнозируемой переменной от одной независимой, а множественной регрессии – от нескольких независимых переменных.

В зависимости от вида связи между факторами различают линейную и нелинейную регрессию.

Линейная регрессионная модель имеет вид:

.

Линейные модели (в более общем случае - линейно-параметризованные) могут быть записаны в виде скалярного произведения вектора неизвестных коэффициентов и вектора базисных функций:

,

где , , .

Нелинейно-параметризованную модель нельзя представить в виде подобного скалярного произведения, т.е.

.

Общая вычислительная задача, которую требуется решать при анализе методом регрессии, состоит в подгонке некоторой функции к заданному набору точек. Линия регрессии выражает наилучшее предсказание зависимой переменной по независимым переменным. Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой (как показано на диаграмме рассеяния). Очевидно, что чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем лучше построена модель регрессии, и тем точнее будет полученный с ее использованием прогноз.

Часто, прежде чем проводить корреляционно-регрессионный анализ, необходимо исключить из исследуемых рядов тенденцию.

Таким образом, уравнение регрессии позволяет установить статистическую взаимосвязь изучаемых показателей и, в случае ее устойчивости, дать аналитические и прогнозные оценки зависимой переменной. Другими словами, по данным периода ретроспекции строится уравнение регрессии, по которому и производится расчет прогнозных значений.

Основное концептуальное ограничение метода корреляционно-регрессионного анализа состоит в том, что он позволяет обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: