Регрессионный анализ занимает центральное место в математико-статистическом инструментарии эконометрики. По существу, обсуждение проблем регрессионного анализа начинается в курсе общей теории статистики. Рассматривается общая постановка задачи статистического исследования зависимостей и основные типы регрессионных зависимостей между количественными признаками. Необходимый этап предрегрессионного анализа – так называемый корреляционный анализ, в процессе которого оценивается степень тесноты статистической связи между анализируемыми переменными. От степени тесноты анализируемой связи зависит прогностическая сила конструируемой регрессионной модели.
Об этимологии слова «регрессия». Строго говоря, по своей смысловой нагрузке слово «регрессия» не имеет отношения к существу стохастических связей, для описания которых оно используется. Объяснение этому термину можно дать, лишь обратившись к истории исследований в области статистического анализа связей между признаками.
Одним из первых примеров исследований такого рода была работа шведских статистиков, пытавшихся по наблюдениям значений пар признаков: х – отклонение от среднего уровня в росте отца; у – отклонение от среднего уровня в росте взрослого сына этого отца, – установить и описать стохастическую связь, существующую между х и у. В процессе исследования была подтверждена естественная гипотеза о наличии положительной статистической связи между ростом отца и сына («у высоких отцов в среднем высокие сыновья, и наоборот»).
Одновременно была подмечена тенденция регрессии (отступления, возврата) в росте сыновей к среднему уровню, а именно: «у очень высоких отцов сыновья в среднем высокие, но уже не такие высокие, как отцы, и наоборот: у очень маленьких по росту отцов сыновья в среднем низкорослые, но все-таки повыше, чем их отцы».
Функцию, описывающую эту закономерность, авторы назвали функцией регрессии, после чего этот термин и стали использовать применительно к любой функции, построенной аналогичными методами.
Приступая к изучению этой главы, желательно освежить в памяти сведения из курса общей теории статистики.
Результирующая (зависимая, эндогенная) переменная y ‑ переменная (или признак), характеризующая результат или эффективность функционирования анализируемой экономической системы. Ее значения формируются в процессе и внутри функционирования этой системы под воздействием ряда других переменных и факторов, часть из которых поддается регистрации и, в определенной степени, управлению и планированию (эту часть принято называть объясняющими переменными, см. ниже). В регрессионном анализе результирующая переменная выступает в роли функции, значения которой определяются (правда, с некоторой случайной погрешностью) значениями упомянутых выше объясняющих переменных, выступающих в роли аргументов. Поэтому по природе своей результирующая переменная у всегда стохастична (случайна).
Объясняющие (предикторные, экзогенные) переменные X=(х1, х2, …, хm) ‑ переменные (или признаки), поддающиеся регистрации, описывающие условия функционирования изучаемой реальной экономической системы и в существенной мере определяющие процесс формирования значений результирующих переменных. Как правило, часть из них поддается хотя бы частичному регулированию и управлению. Значения ряда объясняющих переменных могут задаваться как бы «извне» анализируемой системы. В этом случае их принято называть экзогенными. В регрессионном анализе они играют роль аргументов той функции, в качестве которой рассматривается анализируемый результирующий показатель y. По своей природе объясняющие переменные могут быть как случайными, так и неслучайными.
В регрессионном анализе рассматривается связь между одной зависимой переменной и несколькими другими независимыми переменными. Эта связь представляется с помощью математической модели. Результирующая переменная y выступает в роли функции, значения которой определяются с некоторой случайной погрешностью, значениями объясняющих переменных X=(х1, х2, …, хm), выступающих в роли аргументов этой функции. Независимые переменные связаны с зависимой посредством функции регрессии, зависящей также от набора неизвестных параметров. Если функция линейна относительно параметров (но не обязательно линейна относительно независимых переменных), то говорят о линейной модели регрессии. В противном случае модель называется нелинейной. В каждом из этих случаев говорят о регрессии зависимой переменной по независимым переменным.
Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан. Например, могло бы оказаться, что число спальных комнат является лучшим предсказывающим фактором (предиктором) для цены продажи дома в некотором специфическом районе, чем «привлекательность» дома (субъективная оценка). Могли бы также обнаружиться и «выбросы», т.е. дома, которые могли бы быть проданы дороже, учитывая их расположение и характеристики.
Специалисты по кадрам обычно используют процедуры множественной регрессии для определения вознаграждения адекватного выполненной работе. Можно определить некоторое количество факторов или параметров, таких, как «размер ответственности» или «число подчиненных», которые, как ожидается, оказывают влияние на стоимость работы. Кадровый аналитик затем проводит исследование размеров окладов среди сравнимых компаний на рынке, записывая размер жалования и соответствующие характеристики (т.е. значения параметров) по различным позициям. Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.
Исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. Психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом.
В общем, множественная регрессия позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшим предиктором для...». Заметим, что термин «множественная» указывает на наличие нескольких предикторов или регрессоров, которые используются в модели.
Все выводы в регрессионном анализе, также как и в любом статистическом исследовании, строятся на основании имеющихся исходных статистических данных.
Статистическими проблемами регрессионного анализа являются:
‑ получение наилучших точечных и интервальных оценок неизвестных параметров регрессии;
‑ проверка гипотез относительно этих параметров;
‑ проверка адекватности предполагаемой модели.
Выбор подходящей модели основывается как на статистических доводах, так и на основе содержательного смысла моделируемой зависимости.
Регрессионный анализ используется с двумя целями. Во-первых, описание зависимости между переменными помогает установить наличие возможной причинной связи. Во-вторых, для получения предиктора для зависимой переменной, так как уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменных. Эта возможность особенно важна в тех случаях, когда прямые измерения зависимой переменной затруднены или дорого стоят.
Величина линейной зависимости между двумя переменными измеряется посредством простого коэффициента корреляции. Величина линейной зависимости одной переменной от нескольких измеряется множественным коэффициентом корреляции. Другая мера зависимости – частный коэффициент корреляции – измеряет линейную зависимость между двумя переменными после устранения части линейной зависимости, обусловленной зависимостью этих переменных с другими переменными. Методы корреляционного анализа позволяют делать статистические выводы об этих трех мерах линейной зависимости. Методы регрессионного и корреляционного анализа тесно связаны между собой.