Метод регрессии

Статистика 6.

Метод таблиц сопряженности.

Был разработан как прикладной в медицинской статистике. Применяется в основном при оценке связи качественных данных. Также необходимо предварительное ранжирование. В географии применим довольно часто (нечисловые данные: экспозиция склонов, степень окатанности осадочного материала, временн а я градация туристического сезона и т.д.).

Готовим т абл. № 10. Распределение исходных значений. Частота попадания в каждую градацию m ij, где i– номер столбца, а j - номер строки. Цифры в графах – суммы частот – для примера.

У Х	Зима	Весна	Лето	Осень	∑ m i
Израиль
АПЕ
ЮВА
Турция
∑ m j					N

Рассчитываем суммы частот по строкам и столбцам и записываем в соответствующие графы.

Готовим табл. № 11. Распределение теоретических значений (ожидаемых при отсутствии связи) f ij.

У Х

Рассчитываем для каждой сопряженной градации по формуле: f ij = ∑m i ·∑m j / N. Записываем в таблицу (третий шаг).Это число попаданий в каждую клетку, если бы связь между Х и У отсутствовала.

Готовим таблицу № 12. Разности между реальным и ожидаемым попаданием. m ij – f ij

У Х

Записываем в соответствующие графы (четвертый шаг). Значения могут быть отрицательными.

Готовим таблицу № 13. Квадрат разности. (m ij – f ij)². Записываем в таблицу (пятый шаг).

У Х

Готовим таблицу № 14. Отношение квадрата разности к ожидаемой частоте. (m ij – f ij)²/ f ij

У Х

Записываем в соответствующие графы и суммируем по всем столбцам и строкам (шестой шаг).

∑(m ij – f ij)²/ f ij = χ² эмп. Находим χ² табл. по данным: α = 0,05, m = (k i – 1)·(k j – 1), где k – количество градаций.

Cравниваем: если χ² эмп.> χ² табл. то нулевую гипотезу Н0 об отсутствии связи отклоняем. Связь статистически значима. В ином случае связь незначима.

После определения значимости необходимо выяснить тесноту связи с помощью коэффициента

(седьмой шаг ): χ²

сопряженности Пирсона: Р = √────; Если Р > 0,5, то связь можно считать существенной.

χ² + N χ²

Для проверки рассчитаем коэффициент связи Крамера (восьмой шаг ): Кр = √─────−; Р ≈ Кр

N· (k – 1)

Метод наименьших квадрато в.

Само название метода обозначает способ определения – путем минимизации отклонений Х и У от какой-то линии, характеризующей эту связь (линейную). Общий вид такой связи: У = аХ + b. В данном уравнении важно определить коэффициенты а и b по формулам:

∑ Xi Yi – (∑ Х i ·∑ Y i) / N ∑Y i - a ∑ X i

a = −−−−−−−−−−−−−−−−−−−−; b = −−−−−−−−−−

∑ X i² - (∑ X i)² / N N

Для этого готовим таблицу № 15 (ряды неранжированные) (девяты й шаг):

X i	X i²	Y i	X i · Y i


∑=	∑=	∑=	∑=

Рассчитываем и подставляем коэффициенты в уравнение и строим прямую регрессии в поле корреляции (десятый шаг).

Метод регрессии.

О снован на определении коэффициента регрессии R, который показывает насколько изменится результирующий признак У при изменении факторного признака Х на единицу. Например, насколько изменится прирост колец, если температура изменится на 1 градус. При этом он привязан к единицам измерения обоих признаков и показывает структуру связи между исследуемыми признаками (рядами).

R = r · (σy/σx), где r – коэф-т парной корреляции Пирсона, σy,σx - СКО наших переменных. Cчитаем ошибку коэф-та регрессии δR = (σy/σx) · √(1-r²)/N-2 (одиннадцатый шаг). Проверяем значимость t эмп. = R / δR, если |t| эмп.> t табл., то нулевая гипотеза отвергается, R – стат. значим.

На самом деле R ≈ a с точностью до 5 %, a b = Yср. – (R· Xср.) (двенадцатый шаг) и, таким образом, уравнение регрессии мы можем получить, используя полученные ранее параметры.

Одним из преимуществ регрессионного анализа является то, что он не предъявляет требований к нормальности распределения и допускает использование выборок из любых совокупностей, независимо от характера распределения.