Функциональная, статистическая и корреляционная зависимости

Основы регрессионного и корреляционного анализа

Числа не управляют миром,

но показывают, как управляется мир.
И. Гёте

Функциональная, статистическая и корреляционная зависимости

Функциональная зависимость – это зависимость, при которой каждому значению одной (или нескольких) переменной соответствует определенное значение другой переменной (зависимой).

Пусть наблюдению подлежит случайная величина Y, зависящая от одной или нескольких других случайных величин X₁, X₂, …, X_k, которые называются факторами. В общем случае число факторов может быть неизвестно. Исследователь выбирает k наиболее существенных факторов. В этих условиях функциональная зависимость между Y и X недостижима, так как неучтенно влияние неопределенных факторов, т.е. или , где - стохастическая переменная, включающая влияние неучтенных факторов в модели. Говорят, что между Y и X существует стохастическая (или статистическая, вероятностная) связь. Пример статистической связи – зависимость урожайности от количества внесенных удобрений и механизации предприятия. В силу неоднозначности статистической зависимости для исследователя представляет интерес усредненная по Х схема зависимости.

Корреляционной зависимостью между двумя переменными величинами называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.

Корреляционная зависимость может быть представлена в виде уравнения, которое называется модельным уравнением регрессии (или просто уравнением регрессии).

Задача корреляционного анализа – выявление связи между случайными переменными и оценка ее тесноты.

Задача регрессии - выбор модели зависимости междупеременными и определение оценок неизвестных параметров этой модели.

Выбор модели регрессионных зависимостей осуществляется исходя из теоретических представлений о возможной взаимосвязи между переменнымиили из визуального анализа графиков наблюдений.

В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

В зависимости от вида функции модели делятсяна линейные и нелинейные.

Линейная регрессия

Однофакторная регрессия (на наблюдаемую переменную Y влияет один фактор X) Замечание. Уравнение называется простой линейной регрессией или парной линейной регрессией.	Множественная регрессия (на наблюдаемую переменную Y влияют несколько факторов )
Для оценки неизвестных параметров β применяют метод наименьших квадратов (МНК), суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений , т.е.:
Алгоритм МНК в форме обобщенного обращения матрицы
1. Ввести исходные данные – массивы Y и X. 2. Составить матрицу , n -число наблюдений,2- число неизвестных параметров .	1. Ввести исходные данные – массивы Y и . 2. Составить матрицу , n -число наблюдений, р+1 - число неизвестных параметров .
3. Матрица неизвестных параметров
В среде Mathcad для определения параметров простой линейной регрессии можно использовать встроенные функции 1. ; 2. line(X,Y)
Качество уравнения регрессииопределяется по величине средней ошибки аппроксимации (уравнение можно использовать как прогностическую модель, если ).
Влияние совокупности факторов на результатY
Выборочный линейный коэффициент корреляции (характеризует степень взаимосвязи пары случайных величин, если зависимость между ними соответствует прямой линии) –линейная функциональная связь, ; - Y и X некоррелированы. В среде Mathcadиспользуют встроенную функцию corr(X,Y).	Выборочный сводный коэффициент корреляции (характеризует связь Y со всеми факторами, входящими в уравнение) - Y имеет функциональную связь с совокупностью факторов; - Y некоррелирован ни с одним из факторов.
Проверка значимости выборочного коэффициента корреляции (t-критерий Стьюдента) Н₀ – изучаемый фактор (факторы) не оказывает существенного влияния на результат, т.е. коэффициент корреляции генеральной совокупности равен 0. Н₁- коэффициент корреляции генеральной совокупности отличен от 0. p – число факторов, влияющих на результат, п – число измерений, w – критическая область двусторонняя

Проверка значимости уравнения регрессии (F-критерий Фишера) – установить, соответствуетлиматематическая модель экспериментальным данным и достаточно ли включенных в уравнение факторов (одного или нескольких) для описания зависимой переменной. - уравнение регрессии не надежное; - уравнение регрессии надежное p – число факторов, влияющих на результат, п – число измерений, w – критическая область правосторонняя.

Значимость отдельных (кроме свободного члена) коэффициентов регрессии(t-критерий Стьюдента) – коэффициент статистически не значим; – коэффициент статистически значим p – число факторов, влияющих на результат, п – число измерений, w – критическая область двусторонняя. Если коэффициент статистически не значим, то фактор, соответствующий этому коэффициенту следует исключить из модели (при этом ее качество не ухудшится).
Коэффициенты эластичности и детерминации 1. Коэффициент эластичности показывает, на сколько процентов в среднем изменяется результативный признак Y при изменении факторного признака X_i на 1%. Высокий уровень эластичности означает сильное влияние независимой переменной на объясняемую переменную. 2. Коэффициент детерминации ( показывает долю вариации результативного признака, объясненную вариацией факторного признака. Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

1 2 3 4

Подборка статей по вашей теме: