Коэффициент корреляции Чупрова [ 20 мин. ]
Коэффициент корреляции Чупрова (rch) вычисляется по следующей формуле:
где χ 2 – эмпирическая величина критерия хи-квадрат,
N – объём выборки (число объектов, у которых учитывали оба признака),
a, b – число модальностей обеих признаков.
Достоверность коэффициента корреляции Чупрова оценивается по величине значения критерия хи-квадрат. Вычисление критерия хи-квадрат проводится по обычной формуле:
Число слагаемых компонентов при вычислении χ2 равно произведению a x b. Нулевая гипотеза заключается в отсутствии достоверной связи между переменными. Если χ2 > χ205 нулевая гипотеза отклоняется (связь между переменными достоверна); если χ2 < χ205 нулевая гипотеза принимается (связь между переменными недостоверна). В случае если доказано, что связь недостоверна коэффициент корреляции Чупрова не вычисляется и приравнивается к 0.
Пример 1. Для установления связи между формой желёзок на черешках и баллом поражения мучнистой росой персика были изучены 1319 сортов. Частоты встречаемости сортов персика по сочетанию модальностей этих признаков следующие:
Частоты встречаемости сортов персика по сочетанию модальностей признаков «форма желёзок» и «поражение мучнистой росой»
Поражение мучнистой росой | Форма желёзок | |
почковидная | Округлая | |
отсутствует или слабое | 453 | 40 |
среднее или сильное | 46 | 780 |
Какова корреляция между формой желёзок на черешках и поражением мучнистой росой у персика?
Решение: Признак «форма желёзок» является номинальным, поскольку модальности «почковидная» и «округлая» невозможно ранжировать. Признак «поражение мучнистой росой» можно рассматривать как порядковый признак, поскольку его состояния. «отсутствует или слабое» и «среднее или сильное» легко ранжируются. Если хотя бы один из признаков номинальный, то для оценки корреляции между этим признаком и другими используется коэффициент корреляции Чупрова.
1. На первом этапе строим таблицу частот встречаемости сортов по двум изученным признакам и рассчитываем теоретически ожидаемые частоты при условии, что корреляция между этими признаками отсутствует (табл. 6.2.):
Эмпирические и теоретически ожидаемые частоты встречаемости сортов персика по сочетанию модальностей признаков «форма желёзок» и «поражение мучнистой росой» при условии, что корреляция между этими признаками отсутствует
Поражение мучнистой росой | Форма желёзок | Σ | |||
почковидная | округлая | ||||
отсутствует или слабое | 453 | 186,51 | 40 | 306,49 | 493 |
среднее или сильное | 46 | 312,49 | 780 | 513,51 | 826 |
Σ | 499 | 820 | 1319 |
2. Рассчитываем значение хи-квадрат:
χ2= 978,03 >χ205= 3,84
Статистический вывод: корреляция между поражением мучнистой росой и формой железок достоверна.
3. Вычисляем коэффициент корреляции Чупрова:
Вывод: корреляция между баллом поражения мучнистой росой и типом железок достоверная и сильная. Установить какая переменная является аргументом, а какая функцией, строго говоря, невозможно. Однако можно предположить, что форма желёзок – независимая переменная (аргумент), а поражение мучнистой росой – зависимая переменная (функция).
Практическое задание 6.1. Для оценки корреляции между сроком цветения и сроком созревания плодов были изучены 310 сортов черешни. Вычислите коэффициент корреляции Чупрова.
Срок цветения | Срок созревания плодов | |
ранний | поздний | |
Ранний | 41 | 14 |
Поздний | 214 | 41 |
Решение: