Лекция №3. Построение уравнения регрессии

План лекции:

1. Постановка задачи.

2. Спецификация модели.

3. Коэффициент детерминации. Ошибка аппроксимации.

4. Проверка качества уравнения регрессии. F-критерий Фишера.t-критерий Стьюдента.

5. Точечный и интервальный прогноз по уравнению линейной регрессии.

Постановка задачи.

Постановка задачи: по имеющимся данным n наблюдений за совместным изменением двух переменных показателей x и y {(xi,yi), i=1,2,...,n} необходимо определить аналитическую зависимость ŷ = f(x), которая бы наилучшим образом описывала данные наблюдений.

Результаты наблюдений удобно представлять в виде таблицы.

Таблица

Данные наблюдений

  x y
  x1 y1
  x2 y2
n xn yn

Каждая строка таблицы представляет собой результат одного наблюдения (xi,yi).

Значения xi, yi из каждой строки можно рассматривать как координаты точки (xi,yi) на координатной плоскости xy. Совокупность всех точек называется поле корреляции, или облако наблюдений, или диаграмма рассеяния (рис. 1).

Из всех возможных прямых мы хотим выбрать ту, чтобы она «наилучшим образом» подходила к нашим данным, т. е. отражала бы линейную зависимость Y от X. Иными словами, чтобы каждое Yi лежало бы как можно ближе к прямой. Можно сказать, мы хотим, чтобы желаемая прямая была бы в центре скопления наших данных.

 

Рис. 1. Поле корреляции

Рис. 2. Линия регрессии с минимальной дисперсией остатков

 

По форме облака наблюдений можно определить вид регрессионной функции.

Для формализации рассмотрим разность между расчетными (теоретическими) и наблюдаемыми значениями у:

Наилучшей считается такая зависимость, для которой сумма квадратов отклонений принимает минимальное значение, т. е. дисперсия стремится к минимуму:

 
 

 


После постановки задачи, априорного и информационно-статистического этапа проводится спецификации модели.

 

Спецификация модели.

В парной регрессии выбор вида аналитической зависимости может быть осуществлен тремя методами:

графическим (на основе анализа поля корреляции);

аналитическим (на основе изучения теоретической природы связи между исследуемыми признаками);

экспериментальным (построение нескольких моделей различного вида с выбором наилучшей, согласно применяемому критерию качества).

Визуальный анализ поля корреляции позволяет определить форму кривой регрессии, ее особенности. Зная типичный вид графиков различных функций, можно подобрать соответствующую аналитическую зависимость.

Примером применения аналитического метода может служить зависимость между затратами (y) и объемом производства (x). Считая, что затраты прямо пропорциональны объему производства, зависимость между ними можно представить в виде линейной функции

y = a + b·x,

где a – часть затрат, не зависящая от объема производства, b – дополнительные затраты на производство единицы продукции.

Разделив обе части последнего уравнения на объем производства x, получим зависимость удельных затрат (z = y/x) на производство единицы продукции от объема производства:

.

Экспериментальный метод построения уравнения регрессии используется при обработке информации на компьютере. При этом перебираются различные математические функции в автоматическом режиме, и среди них выбирается самая качественная. Критерием качества модели может выступать либо средняя квадратическая ошибка модели, либо остаточная дисперсия.

;

Чем меньше величина дисперсии, тем в меньшей мере наблюдается влияние прочих не учитываемых в уравнении факторов и тем лучше уравнение регрессии подходит к исходным данным. Выбирается та функция, для которой дисперсия является наименьшей. Если дисперсия оказывается примерно одинаковой для нескольких функций, то на практике предпочтение отдается более простым.

При спецификации модели важным также является количество наблюдений. Результаты многих исследований подтверждают, что число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменной х. Это означает, что не имеет смысла искать линейную регрессию на основе менее 7 наблюдений.

Экспериментальный подход легко реализуем при наличии соответствующих вычислительных средств. Но он не является определяющим, так как в эконометрике более важным является не способность модели соответствовать имеющемуся массиву данных, а ее способность раскрывать существующие закономерности в экономических явлениях и процессах и интерпретация полученных с ее помощью результатов.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: