Адекватность регрессионных моделей – это их соответствие фактическим статистическим данным. Регрессионная модель считается адекватной, если теоретические значения зависимой переменной (т.е. предсказанные на основе модели) согласуются с результатами наблюдений.
Исходное предположение для проверки адекватности регрессионной модели.
Зависимость между прогнозируемым (теоретическим) значением результативного признака (ŷ) и факторами (xi) имеет вид ŷ=f(xi)+e,
где e – некоторая случайная величина, связанная с влиянием неконтролируемых или неучтенных факторов, случайных ошибок измерения.
Из-за e возникают ненулевые остатки, т.е. разности между теоретическими и эмпирическими значениями (yi–ŷi).
Предполагается, что эти остатки независимы (некоррелированны) и распределены по нормальному закону с нулевым средним и одинаковой дисперсией. Это предположение легко проверить путем построения диаграммы остатков.
• Для адекватной модели, кроме некоррелированности остатков и их нормального распределения, должно выполняться условие гомоскедаксичности, т. е. постоянства дисперсии ошибок для всех наблюдений.
|
|
• Оценка выполнимости этого условия проводится по графику остатков: если все остатки укладываются в симметричную относительно нулевой линии полосу, то, можно считать, что дисперсия ошибок наблюдений постоянна.
• На графике распределения значений зависимой переменной от одной из независимых переменных не должно быть сильных «раздуваний».
• Значительное отклонение от этого условия называется гетероскедастичностью. Для оценки гетероскедастичности разработаны и специальные статистические тесты.
Общий подход к проверке адекватности полученной модели
• Нахождение остатков, т.е. значения суммы квадратов разностей между наблюдаемыми и предсказанными моделью значениями переменной y: SSe (от SumofSquares).
• Остаточная дисперсия:
• Скорректированная оценка остаточной дисперсии
• Корень квадратный из этого показателя называется стандартной ошибкой оценки