Сравнительные критерии

Кроме критериев, позволяющих говорить о качестве регрессионной модели самой по себе, существует ряд характеристик, позволяющих сравнивать модели друг с другом (при условии, что мы объясняем один и тот же ряд на одном и том же периоде).

Наиболее популярным методом определения коэффициентов регрессии является метод наименьших квадратов (метод минимизации невязок, метод минимизации суммы квадратов остатков). Сущность этого метода заключается в том, чтобы найти такие коэффициенты регрессии{\displaystyle b}, при которых сумма квадратов отклонений значения зависимой переменной, вычисляемой по регрессионной модели и значения зависимой переменной из исходной выборки (ошибок, для регрессионных моделей их часто называют остатками регрессии) {\displaystyle e_{t}} RSS (Residual Sum of Squares) будет минимальной.

{\displaystyle RSS(b)=e^{T}e=\sum _{t=1}^{n}e_{t}^{2}=\sum _{t=1}^{n}(y_{t}-f(x_{t},b))^{2}}В общем случае решение этой задачи может осуществляться численными методами оптимизации (минимизации).

Сравнивая модели по этому показателю, можно определить, какая из моделей лучше объяснила исследуемый ряд. Такой модели будет соответствовать наименьшее значение суммы квадратов остатков.

Возможные проблемы: Стоит заметить, что с ростом числа факторов данный показатель так же, как и R2, будет стремиться к граничному значению (у RSS, очевидно, граничное значение 0).

Анализ остатков

Модель считается качественной, если остатки модели не коррелируют между собой. В противном случае имеет место постоянное однонаправленное воздействие на объясняемую переменную не учтённых в модели факторов. Это влияет на качество оценок модели, делая их неэффективными.

 

Для проверки остатков на автокорреляцию первого порядка (зависимость текущего значения от предыдущих) используется статистика Дарбина-Уотсона (DW). Её значение находится в промежутке от 0 до 4. В случае отсутствия автокорреляции DW близка к 2. Близость к 0 говорит о положительной автокорреляции, к 4 — об отрицательной.

 

Мультиколлинеарность

Мультиколлинеарность – это наличие сильной линейной зависимости между объясняющими переменными (факторами) регрессионной модели.

Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть незначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).

Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.

В случае, если между объясняющими переменными существует мультиколлинеарность, то оценки коэффициентов линейной модели, полученные по МНК, становятся неустойчивыми, незначительное изменение состава выборки или состава объясняющих переменных может вызвать кардинальное изменение модели, что делает модель непригодной для практических целей. Наиболее распространенные в таких случаях приемы оценивания параметров регрессионной модели: методы пошаговой регрессии, использование гребневой регрессии (ридж-регрессии), переход от первоначальных переменных к их главным компонентам.

 

 

Подробности:

 

http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%B8%D0%BD%D0%B5%D0%B9%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F

 




double arrow
Сейчас читают про: