Расчет оценок параметров уравнения парной регрессии методом наименьших квадратов

Одним из методов изучения стохастических связей между признаками является регрессионный анализ.
Регрессионный анализ представляет собой вывод уравнения регрессии, с помощью которого находится средняя величина случайной переменной (признака-результата), если величина другой (или других) переменных (признаков-факторов) известна. Он включает следующие этапы:

1. выбор формы связи (вида аналитического уравнения регрессии);

2. оценку параметров уравнения;

3. оценку качества аналитического уравнения регрессии.

Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к линейной связи объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму.
В случае линейной парной связи уравнение регрессии примет вид: . Параметры данного уравнения а и b оцениваются по данным статистического наблюдения x и y. Результатом такой оценки является уравнение: , где , - оценки параметров a и b, - значение результативного признака (переменной), полученное по уравнению регрессии (расчетное значение).

Наиболее часто для оценки параметров используют метод наименьших квадратов (МНК).
Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (u) и независимой переменной (x) (см. предпосылки МНК).

Задача оценивания параметров линейного парного уравнения методом наименьших квадратов состоит в следующем: получить такие оценки параметров , , при которых сумма квадратов отклонений фактических значений результативного признака - y_i от расчетных значений – минимальна.
Формально критерий МНК можно записать так:

Классификация методов наименьших квадратов

1. Метод наименьших квадратов.

2. Метод максимального правдоподобия (для нормальной классической линейной модели регрессии постулируется нормальность регрессионных остатков).

3. Обобщенный метод наименьших квадратов ОМНК применяется в случае автокорреляции ошибок и в случае гетероскедастичности.

4. Метод взвешенных наименьших квадратов (частный случай ОМНК с гетероскедастичными остатками).

Проиллюстрируем суть классического метода наименьших квадратов графически. Для этого построим точечный график по данным наблюдений (x_i, y_i, i=1;n) в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.

Математическая запись данной задачи: .
Значения y_i и x_ii=1;n нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров - , . Чтобы найти минимум функции 2-ух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их нулю, т.е. .
В результате получим систему из 2-ух нормальных линейных уравнений:
Решая данную систему, найдем искомые оценки параметров:

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм (возможно некоторое расхождение из-за округления расчетов).
Для расчета оценок параметров , можно построить таблицу 1.
Знак коэффициента регрессии b указывает направление связи (если b >0, связь прямая, если b <0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формально значение параметра а – среднее значение y при х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра а не имеет смысла.

Оценка тесноты связи между признаками осуществляется с помощью коэффициента линейной парной корреляции - r_x,y. Он может быть рассчитан по формуле: . Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b: .
Область допустимых значений линейного коэффициента парной корреляции от –1 до +1. Знак коэффициента корреляции указывает направление связи. Если r_{x, y}>0, то связь прямая; если r_{x, y}<0, то связь обратная.
Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице ê r_{x, y} ê =1, то связь между признаками функциональная линейная. Если признаки х и y линейно независимы, то r_x,y близок к 0.
Для расчета r_x,y можно использовать также таблицу 1.

Таблица 1

N наблюдения	x_i	y_i	x_i ∙y_i
1	x₁	y₁	x₁·y₁
2	x₂	y₂	x₂·y₂
...
n	x_n	y_n	x_n·y_n
Сумма по столбцу	∑x	∑y	∑x·y
Среднее значение

Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации – R²_yx:
,
где d² – объясненная уравнением регрессии дисперсия y;
e²- остаточная (необъясненная уравнением регрессии) дисперсия y;
s² _y - общая (полная) дисперсия y.
Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака y, объясняемую регрессией (а, следовательно, и фактором х), в общей вариации (дисперсии) y. Коэффициент детерминации R²_yx принимает значения от 0 до 1. Соответственно величина 1-R²_yx характеризует долю дисперсии y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации.
При парной линейной регрессии R²_yx=r²_yx.

21 22 23 24 25 26 27

Подборка статей по вашей теме:

Малообразованному человеку очень полезно читать книги цитат. «Знакомые цитаты» Бартлетта – восхитительная книга, и я внимательно изучал ее. Запечатленные в памяти цитаты вызывают плодотворные мысли. Они также вызывают желание подробнее ознакомиться с творчеством их авторов и отыскать в нем многое другое. © Черчилль ==> читать все изречения...

8342

7989