Статистика 6.
Метод таблиц сопряженности.
Был разработан как прикладной в медицинской статистике. Применяется в основном при оценке связи качественных данных. Также необходимо предварительное ранжирование. В географии применим довольно часто (нечисловые данные: экспозиция склонов, степень окатанности осадочного материала, временн а я градация туристического сезона и т.д.).
Готовим т абл. № 10. Распределение исходных значений. Частота попадания в каждую градацию m ij, где i– номер столбца, а j - номер строки. Цифры в графах – суммы частот – для примера.
У Х | Зима | Весна | Лето | Осень | ∑ m i |
Израиль | |||||
АПЕ | |||||
ЮВА | |||||
Турция | |||||
∑ m j | N |
Рассчитываем суммы частот по строкам и столбцам и записываем в соответствующие графы.
Готовим табл. № 11. Распределение теоретических значений (ожидаемых при отсутствии связи) f ij.
У Х | ||||
Рассчитываем для каждой сопряженной градации по формуле: f ij = ∑m i ·∑m j / N. Записываем в таблицу (третий шаг).Это число попаданий в каждую клетку, если бы связь между Х и У отсутствовала.
|
|
Готовим таблицу № 12. Разности между реальным и ожидаемым попаданием. m ij – f ij
У Х | ||||
Записываем в соответствующие графы (четвертый шаг). Значения могут быть отрицательными.
Готовим таблицу № 13. Квадрат разности. (m ij – f ij)². Записываем в таблицу (пятый шаг).
У Х | ||||
Готовим таблицу № 14. Отношение квадрата разности к ожидаемой частоте. (m ij – f ij)²/ f ij
У Х | ||||
Записываем в соответствующие графы и суммируем по всем столбцам и строкам (шестой шаг).
∑(m ij – f ij)²/ f ij = χ² эмп. Находим χ² табл. по данным: α = 0,05, m = (k i – 1)·(k j – 1), где k – количество градаций.
Cравниваем: если χ² эмп.> χ² табл. то нулевую гипотезу Н0 об отсутствии связи отклоняем. Связь статистически значима. В ином случае связь незначима.
После определения значимости необходимо выяснить тесноту связи с помощью коэффициента
(седьмой шаг ): χ²
сопряженности Пирсона: Р = √────; Если Р > 0,5, то связь можно считать существенной.
|
|
χ² + N χ²
Для проверки рассчитаем коэффициент связи Крамера (восьмой шаг ): Кр = √─────−; Р ≈ Кр
N· (k – 1)
Метод наименьших квадрато в.
Само название метода обозначает способ определения – путем минимизации отклонений Х и У от какой-то линии, характеризующей эту связь (линейную). Общий вид такой связи: У = аХ + b. В данном уравнении важно определить коэффициенты а и b по формулам:
∑ Xi Yi – (∑ Х i ·∑ Y i) / N ∑Y i - a ∑ X i
a = −−−−−−−−−−−−−−−−−−−−; b = −−−−−−−−−−
∑ X i² - (∑ X i)² / N N
Для этого готовим таблицу № 15 (ряды неранжированные) (девяты й шаг):
X i | X i² | Y i | X i · Y i |
∑= | ∑= | ∑= | ∑= |
Рассчитываем и подставляем коэффициенты в уравнение и строим прямую регрессии в поле корреляции (десятый шаг).
Метод регрессии.
О снован на определении коэффициента регрессии R, который показывает насколько изменится результирующий признак У при изменении факторного признака Х на единицу. Например, насколько изменится прирост колец, если температура изменится на 1 градус. При этом он привязан к единицам измерения обоих признаков и показывает структуру связи между исследуемыми признаками (рядами).
R = r · (σy/σx), где r – коэф-т парной корреляции Пирсона, σy,σx - СКО наших переменных. Cчитаем ошибку коэф-та регрессии δR = (σy/σx) · √(1-r²)/N-2 (одиннадцатый шаг). Проверяем значимость t эмп. = R / δR, если |t| эмп.> t табл., то нулевая гипотеза отвергается, R – стат. значим.
На самом деле R ≈ a с точностью до 5 %, a b = Yср. – (R· Xср.) (двенадцатый шаг) и, таким образом, уравнение регрессии мы можем получить, используя полученные ранее параметры.
Одним из преимуществ регрессионного анализа является то, что он не предъявляет требований к нормальности распределения и допускает использование выборок из любых совокупностей, независимо от характера распределения.