Парная регрессия

При проведении социально-экономических исследований часто приходится иметь дело со взаимосвязанными показателями. Изучить, насколько изменение одного показателя зависит от изменения другого – одна из важнейших задач статистики. При этом следует различать функциональные и корреляционные связи. Если каждому значению одной переменной строго соответствует одно определенное значение другой переменной, или, другими словами, обе переменные находятся во взаимно однозначном соответствии, то мы имеем дело с функциональной связью (зависимостью). Если же одному значению переменной (х) вследствие наслоения различных причин может соответствовать множество значений другой переменной (у), то такую связь называют корреляционной.

Примером корреляционной зависимости может служить зависимость производительности труда от стажа работы, зависимость урожайности от сроков сева и т.п.

Наиболее простым случаем корреляционной зависимости является парная корреляция, то есть зависимость между двумя признаками, один из которых называется результативным (у), а другой – факторным (х).

Основными задачами при изучении корреляционных зависимостей являются следующие:

1. Устанавливается наличие корреляции (связи)между величинами у и х. Для этого необходимо лишь визуализировать исходную информацию на графике, где по оси х отображается факторный признак, а по оси у – результативный признак.

2. Устанавливается форма линии связи (регрессии) методом наименьших квадратов (м.н.к.), то есть отыскивается такая математическая формула, которая бы выражала зависимость у от х, при которой сумма квадратов разностей между фактическими наблюдениями (у) зависимой переменной и расчетными значениями переменной по регрессионной формуле (у) МИНИМАЛЬНА, что можно записать следующим образом:

N

S = S (yi – ŷi)2 ® min, (5)

I=1

где N – число пар эмпирических значений хi и yi. В этой связи необходимо сделать специальную оговорку в отношении нижнего индекса у переменной ŷi. Поскольку ŷ не дискретная, а котинууальная (непрерывная) зависимость, например, линейного вида

ŷ = а + bx., (6)

то вычисляются значения ŷ для значений xi, взятых из исходных данных.

Совместное решение по выражениям (5) и (6) является решением задачи аппроксимации, когда эмпирические связи моделируются в виде некоторой (не обязательно линейной) функции. В данном случае уравнение связи (6) и является уравнением регрессии, а если точнее – уравнением линейной регрессии.

После нахождения вида связи х и у необходимо решить еще две следующие задачи.

3. Определяются параметры линии регрессии (здесь – величины и знаки коэффициентов а и b уравнения регрессии (6).

4. Определяются достоверность отдельных параметров (здесь - а и b) и достоверность выбранной нами зависимости (здесь - ŷ = а + bx).

Достоверность отдельных параметров обычно в статистической литературе называется «значимость коэффициентов по Стьюденту», а достоверность выбранной нами зависимости при решении задачи аппроксимации называется «надежностью уравнения по Фишеру». В обоих случаях речь идет о проверке так называемых «нулевых гипотез». В случае полученных величин коэффициентов нулевая гипотеза Н0 состоит в том, что мы полагаем, что полученные значения коэффициентов не отличаются от нуля с наперед заданной вероятностью (в социально-экономических исследованиях обычно принимают вероятность, равную 90% или 95%). В случае исследования надежности полученного уравнения в целом Н0 состоит в том, что все коэффициенты не отличаются от нулевых с теми же заданными вероятностями.

В случае опровержения Н0 в обоих случаях уравнение выбранного вида принимается для дальнейшего применения в соответствии с целями исследования (анализ, оценки, прогнозы и др.) в качестве производственной функции.

Обычно на практике, кроме линейной вида (6), используют следующие формы зависимостей:

1) степенная ŷ = ахb,

b

2) гиперболическая ŷ = а + —,

x

3) показательная ŷ = abx,

4) логарифмическая ŷ = a +blgx

5) параболическая ŷ = a +bx + сх2

и ряд других. Как правило, для этих целей используют специальные компьютерные программы, которые последовательно решают задачу аппроксимации для всего набора парных зависимостей. Например, в пакетах прикладных программ (ППП), таких, как широко распространенные Статграфик и SPSS набор парных зависимостей неодинаков. Выбирается для дальнейшего применения такая зависимость, которая отличается от эмпирической зависимости меньшей величиной ошибки аппроксимации – то есть статистического отличия между эмпирическими исходными данными и данными, полученными в результате применения метода наименьших квадратов в отношении выбранного вида зависимости.

Далее рассмотрим процесс получения уравнения линейной регрессии вида (6).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: