Корреляционно-регрессионный анализ (КРА)
Этапы проведения комплексного КРА
1. Предварительный анализ явлений и выявление причин возникновения взаимосвязей между признаками, характеризующими эти явления.
2. Разделение признаков на факторные и результативные, выбор наиболее существенных признаков для их исследования на предмет выключения в корреляционно-регрессионной модели (КРМ).
3. Построение матрицы коэффициентов парной корреляции и оценка возможных вариантов группировки признаков КРМ.
4. Предварительная оценка формы уравнения регрессии.
5. Вычисление коэффициентов регрессии и их смысловая интерпретация.
6. Расчет теоретически ожидаемых (воспроизведенных по уравнению регрессии) значений результативного признака.
7. Определение и сравнительный анализ дисперсий: общей, факторной и остаточной; оценка тесноты связи между признаками, включенными в регрессионную модель.
8. Общая оценка качества модели, отсев несущественных (или включение дополнительных) факторов, при необходимости, построение новой модели, т.е. повторение пунктов 1-7.
|
|
9. Статистическая оценка достоверности параметров уравнения регрессии, построение доверительных границ для теоретически ожидаемых значений функций.
10. Практические выводы из анализа.
Понятие корреляционного анализа
Корреляционный анализ – раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами.
Корреляция – статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
Варианты корреляции
Парная (межфакторная) – связь между двумя признаками (результативным и факторными или двумя факторными).
Частная – зависимость между результативными и одним или двумя факторными признаками при фиксированном значении других факторных признаков.??????????
Множественная – зависимость между результативным признаком и двумя и более факторными признаками, включенными в исследование.
Формула определения ковариации:
Ковариация характеризует сопряженность вариации двух признаков, представляет собой статистическую меру взаимодействия двух случайных величин.
cov(y,x) = ((sum n при i=1)*(xi-x) /()????????????
Формула линейного коэффициента корреляции:
Ryx= (cov(y,x))/(Сигма х*Сигма у) = ((sum n при i=1)*(xi-x)*(yi-y))/(n*Сигма х*Сигма у)
Где Сигма х и Сигма у – средние квадратические отклонения случайных величин х и у.
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
· Коэффициент корреляции принимает значение от 1 до +1;
|
|
· Положительное значение коэффициента свидетельствует о наличии прямой связи, отрицательное – обратной.
· Если ryx = +- 1, корреляционная связь представляет линейную функциональную зависимость;
· Если ryx = 0 – линейная корреляционная связь отсутствует.
Коэффициент корреляции как статистическая величина подвергается в анализе оценке на достоверность.
Для оценки значимости коэффициента корреляции используют t-критерий Стьюдента (t-статистику), который применяется при t-распределении, отличном от нормального.
При этом выдвигается и проверяется нулевая гипотеза (H0): ryx = 0;
Если нулевая гипотеза при проверке отвергается, то коэффициент корреляции признается значимым, а связь между переменными – существенной.
Формула расчета t-критерия Стьюдента:
T расчетная = ryx*()^(1/2) &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
m- объем выборки – число факторных признаков, включенных в модель.
Значение t-критерия сравнивают с табличным t Альфа Гамма.
(Альфа – заданный уровень значимости, Гамма = (n-m-1) – степеней свободы)
Если выполняется неравенство, что t расчетное > t табличного, то значение коэффициента корреляции признается значимым. То есть, нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции отвергается и делается вывод о том, что между исследуемыми переменными есть тесная статистическая зависимость.
После этого рассчитывается Парный коэффициент детерминации:
D = r2yx – показывает, какая доля вариации переменной y учтена в модели и обусловлена влиянием на неё переменной X.