1. Постановка задачи.
По имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра y и xj и ((yi,xj,i); j =1, 2,..., p; i =1, 2,..., n) необходимо определить аналитическую зависимость ŷ = f(x1, x2,..., xp), наилучшим образом описывающую данные наблюдений.
Таблица 3.1
Данные наблюдений
y | х1 | х2 | … | хр | |
y1 | x11 | х21 | … | xp1 | |
y2 | х12 | х22 | … | xp2 | |
… | … | … | … | … | … |
n | yn | х1n | x2n | … | xpn |
Каждая строка таблицы представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения.
Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных значений результативного показателя ŷi от наблюдаемых значений yi:
2. Спецификация модели.
Спецификация модели включает в себя решение двух задач:
– отбор факторов, подлежащих включению в модель;
– выбор формы уравнения регрессии.
3. Отбор факторов при построении множественной регрессии.
|
|
Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлениями исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.
К факторам, включаемым в модель, предъявляются следующие требования:
1. Факторы должны быть количественно измеримы. Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной. Поскольку данная величина характеризуется коэффициентом детерминации, включение нового фактора в модель должно приводить к заметному изменению коэффициента. Если этого не происходит, то включаемый в анализ фактор не улучшает модель и является лишним.
Например, если для регрессии, включающей 5 факторов, коэффициент детерминации составил 0,85, и включение шестого фактора дало коэффициент детерминации 0,86, то вряд ли целесообразно дополнять модель этим фактором.
Если необходимо включить в модель качественный фактор, не имеющий количественной оценки, то нужно придать ему количественную определенность. В этом случае в модель включается соответствующая ему «фиктивная» переменная, имеющая конечное количество формально численных значений, соответствующих градациям качественного фактора (балл, ранг).
Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную, принимающую значения: 0 – при начальном образовании, 1 – при среднем, 2 – при высшем.
Несмотря на то, что теоретически регрессионная модель позволяет учесть любое количество факторов, на практике в этом нет необходимости, т.к. неоправданное их увеличение приводит к затруднениям в интерпретации модели и снижению достоверности результатов.
|
|
2. Факторы не должны быть взаимно коррелированы и, тем более, находиться в точной функциональной связи. Наличие высокой степени коррелированности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изолированное влияние факторов на результативный показатель. В результате параметры регрессии оказываются неинтерпретируемыми.
Пример. Рассмотрим регрессию себестоимости единицы продукции (у) от заработной платы работника (х) и производительности труда в час (z).
Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед-цу в час себестоимость единицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда.
А параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии в данном случае обусловлено высокой корреляцией между х и z (0,95).
Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если коэффициент интеркорреляции (корреляции между двумя объясняющими переменными) ≥ 0,7. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из уравнения. Предпочтение при этом отдается не тому фактору, который более тесно связан с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.
В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.