Проблема отбора факторов в модель

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования уравнения регрессии для описания, анализа и прогнозирования.

При отборе факторов, включаемых во множественную регрессию необходимо придерживаться следующих требований:

1) Число объясняющих переменных должно быть в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то параметры уравнения регрессии становятся статистически незначимыми.

2) Включаемые во множественную регрессию факторы должны объяснить вариацию зависимой переменной. Если строится модель с набором факторов, то для нее рассчитывается показатель детерминации , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как .

3) Факторы должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, то ему нужно придать количественную определенность: проранжировать его или оценить в баллах.

4) Факторы не должны быть взаимокоррелированными (интеркоррелированы), и, тем более, находиться в точной функциональной связи. Считается, что две объясняющие переменные и явно коллинеарны, то есть находятся между собой в линейной зависимости, если коэффициент корреляции между ними . Предпочтение отдается при этом не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Пример. Рассмотрим уравнение регрессии себестоимости единицы продукции, руб., () от заработной платы работника, руб., () и производительности труда, единиц в час, ():

(2)

Коэффициент регрессии при переменной показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается на 10 руб. при постоянном уровне оплаты труда. Однако знак – перед параметром , безусловно, нельзя интерпретировать как уменьшение себестоимости при увеличении оплаты труда, когда производительность остается на том же уровне. Отрицательное значение коэффициента при , по всей видимости, свидетельствует о сильной корреляции между оплатой труда и производительностью.

При дополнительном включении в уравнение регрессии факторов коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, и данные показатели практически не отличаются друг от друга, то включаемый в анализ дополнительный фактор не улучшает модель и является лишним. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по критерию Стьюдента.

Отбор факторов производится в два этапа. На первом этапе факторы отбираются на основе качественного теоретико-экономического анализа. На втором – на основе матрицы показателей корреляции и определения статистики для параметров регрессии.

Пример. При изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

 
       
0,8      
0,7 0,8    
0,6 0,5 0,2  

Анализ данной таблицы показывает, что факторы и дублируют друг друга. В уравнение регрессии целесообразно включать фактор , а не , так как корреляция с результатом хотя и слабее, зато слабее межфакторная корреляция.

Определение. Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии.

Мультиколлинеарность может возникнуть вследствие того, что не выполняется соотношение между числом объясняющих переменных и количеством наблюдений (объемом выборки) или по причине неправильной спецификации модели.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: