Выбор вида зависимости

В парной регрессии для выбора вида математической функции y = f (x) применяются три метода:

– графический;

– аналитический т.е. исходя из теории изучаемой взаимосвязи;

– экспериментальный.

При изучении зависимости между двумя признаками графический метод достаточно нагляден, особенно для монотонных (не имеющих максимумы и минимумы) зависимостей. Наиболее характерные из них представлены на рис.2.1. Линейная зависимость очевидна и не нуждается в дополнительном графическом представлении.

Рис.2.1. Графики монотонных зависимостей

Значительный интерес представляет аналитический метод выбора типа уравнения регрессии. Он основан на изучении материальной природы связи исследуемых признаков.

При обработке информации на компьютере выбор вида уравнения регрессии обычно проводится экспериментальным методом, т.е. путем сравнения величины остаточной дисперсии D _ост, рассчитанной при разных моделях.

Если уравнение регрессии проходит через все точки корреляционного поля, что возможно только при функциональной связи, то фактические значении результативного признака совпадают с теоретическими, т.е. они полностью обусловлены влиянием фактора. В этом случае остаточная дисперсия равна нулю. В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих не учитываемых в уравнении регрессии факторов. Иными словами, имеют место отклонения фактических данных от теоретических (y – ). Величина этих отклонений и лежит в основе расчета остаточной дисперсии:

(2.2)

Чем меньше величина остаточной дисперсии, тем в меньшей мере наблюдается влияние прочих не учитываемых в уравнении факторов и тем лучше уравнение регрессии подходит к исходным данным. При обработке статистических данных на компьютере перебираются разные математические функции в автоматическом режиме и из них выбирается та, для которой остаточная дисперсия является наименьшей.

Если остаточная дисперсия оказывается примерно одинаковой для нескольких функций, то на практике предпочтение отдается более простым видам функций, так как они в большей степени поддаются интерпретации и требуют меньшего объема наблюдений.

3. Линейная регрессия и корреляция: смысл и оценка параметров

Линейная регрессия находит широкое применение в эконометрике ввиду четкой экономической интерпретации ее параметров. Сводится линейная регрессия к нахождению уравнения вида

. (2.3)

Это уравнение позволяет по заданным значениям фактора x иметь теоретическое значение результативного признака подстановкой в него фактических значений фактора.

Построение линейной регрессии сводится к оценке ее параметров – a и b. Параметр a определяется как точка пересечения линии с осью 0 y, а параметр b – исходя из угла наклона линии регрессии как dy / dx, где dy – приращение y, а dx – приращение x.

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

Этот метод позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака от расчетных (теоретических) минимальна:

. (2.4)

Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной.

Для того, чтобы найти минимум функции (2.4), надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю.

(2.5)

После несложных алгебраических преобразований получается следующая система нормальных уравнений для оценки параметров a и b:

(2.6)

Решение системы (2.6) дает искомые оценки параметров.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Так, если функция издержек (y, тыс.руб.) выражается как y = 3000 + 2 × x, (x – количество единиц продукции), то с увеличением объема продукции x на одну единицу издержки производства возрастают в среднем на 2 тыс.руб., т.е. дополнительный прирост продукции на одну единицу потребует увеличения затрат в среднем на 2 тыс. руб.

Знак при коэффициенте регрессии b показывает направление связи: при b > 0 – связь прямая, при b < 0 – обратная. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение достаточно распространенным в эконометрических исследованиях.

Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях;

Формально а – значение у при х = 0. Если признак-фактор не имеет и не может иметь нулевого значения, то трактовка свободного члена а не имеет смысла. Параметр а может не иметь экономического содержания. Попытки экономически интерпретировать параметр а могут привести к абсурду, особенно при а < 0.

Интерпретировать можно лишь знак при параметре а. Если а > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Иными словами, вариация результата меньше вариации фактора – коэффициент вариации по фактору х выше коэффициента вариации для результата. Vx > Vy.

Пример 2.1. По группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек у = а + b × х + е. Необходимая для расчета оценок параметров а и b информация представлена в табл.2.1.

Таблица 2.1. Расчетная таблица

№	Выпуск продукции, тыс. ед. х	Затраты на производство, млн руб. у	у×х	x²	y²
						31,1	4,592
						67,9	1,306
						141,6	0,735
						104,7	0,020
						178,4	3,449
						104,7	0,020
						141,6	0,735
å						770,0	10,857

Система нормальных уравнений будет иметь вид:

Решив ее, получим:

a = –5,79; b = 36,84.

Запишем уравнение регрессии:

y_x = –5,79 + 36,84 × х.

Подставив в уравнение значения х, найдем теоретические значения (см. соответствующую графу табл.2.1). В данном случае величина параметра а не имеет экономического смысла.

В рассматриваемом примере имеем:

s_х = 1,345; Vx = 1,345/3,143 = 42,8%;

= 110;

s_у = 50; Vy = 50/110 = 45,45%.

То, что а < 0, соответствует опережению изменения результата над изменением фактора Vy > Vx.

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции r_xy. По данным величина линейного коэффициента корреляции составила

что означает наличие очень тесной зависимости затрат на производство от величины объема выпущенной продукции.

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствия связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции r_xy, называемый коэффициентом детерминации. Коэффициент детерминации показывает, какая часть (доля) вариации зависимой переменной y обусловлена вариацией объясняющей переменной x.

. (2.10)

Соответственно величина 1 – r ²характеризует долю дисперсии у, вызванную влиянием остальных неучтенных в модели факторов.

В нашем примере r ² = 0,982. Таким образом, уравнением регрессии объясняется 98,2% дисперсии результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (т.е. остаточная дисперсия). Величина коэффициента детерминации является одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов и, следовательно, линейная модель хорошо аппроксимирует исходные данные, и ею можно воспользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия составляет 5 тыс. ед., прогнозное значение для издержек производства – 178,4 тыс. руб.

Для пояснения понятия тесноты связи рассмотрим рис.2.2.

Рис.2.2. Типы корреляции: а – полная корреляция; б – сильная корреляция; в – слабая корреляция

Несмотря на всю важность измерителя тесноты связи, в эконометрике больший практический интерес приобретает коэффициент детерминации r ² _yx, ибо он дает относительную меру влияния фактора на результат, фиксируя одновременно и роль ошибок, т. е. случайных составляющих в формировании моделируемой переменной. Чем ближе коэффициент детерминации к 1, тем в большей степени уравнение регрессии пригодно для прогнозирования.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2 3 4 5 6 7

Подборка статей по вашей теме: