Как интерпретировать значение коэффициента корреляции Пирсона?

Семинар 04.06.2020

Методы математической статистики в научных исследованиях

 

Какую полезную информацию о связях между переменными можно получить на основе анализа таблиц сопряженности?

Наиболее простым и распространенным способом выявления связи между категориальными переменными является построение таблиц сопряженности, которые показывают, сколько случаев относится одновременно и к определенной категории переменной А, и к определенной категории переменной В.

В рамках анализа таблиц сопряженности мы располагаем рядом способов сделать понимание связи более глубоким. Первый из них позволяет вычислить отношения между реально наблюдаемыми частотами и частотами, которые мы ожидали бы увидеть в том случае, если бы связи не существовало.

В общем, на основе таблиц сопряженности мы можем выявить не только наличие связи между некоторыми переменными, но и о ее характере. В случае, с мужчинами и женщинами, голосующими за того или иного кандидата, пример из учебника, мы можем сделать различные выводы, как например: мужчины склонны в большей степени, чем женщины, поддерживать кандидата А; женщины, напротив, в своем большинстве отдают предпочтение кандидату В.

С помощью таблиц сопряженности мы можем получить наглядное представление о сочетаниях категорий переменных и сделали обоснованное предположение о наличии и характере связи между ними.

Дайте определение понятию «ошибка» в статистических исследованиях.

Выделяют два главных типа статистических ошибок, возможных при проверке статистических гипотез. Статистическая ошибка первого рода - ошибка обнаружения различий или связей, которые на самом деле не существуют. То есть, это ошибка отклонения истинной нулевой гипотезы. Статистическая ошибка второго рода - это ошибка не обнаружения различий или связей, которые на самом деле существуют. То есть, это ошибка принятия

решения, в результате которого ложная нулевая гипотеза не может быть отклонена.

С понятиями ошибок первого и второго рода связано решение важного вопроса о том, что можно считать критерием отклонения или принятия статистической гипотезы, Т.е. по каким критериям мы можем судить о том, что статистическая ошибка маловероятна, или о том, что связь статистически значима.

Уровень значимости (level of significance) (также используются термины уровень достоверности, уровень надежности, доверительный уровень, вероятностный порог) - это пороговая (критическая) вероятность ошибки, заключающейся в отклонении (не принятии) нулевой гипотезы, когда она верна. Другими словами, это допустимая (с точки зрения исследователя) вероятность совершения статистической ошибки первого рода - ошибки того, что различия сочтены существенными, а они на самом деле случайны. Обычно используют уровни значимости (обозначаемые α), равные 0,05, 0,01 и 0,001. Например, уровень значимости, равный 0,05, означает, что допускается не более чем 5%-ая вероятность ошибки.

Какова основная цель корреляционного анализа?

Целью корреляционного анализа является измерение статистической взаимозависимости между двумя или более переменными. В случае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух — множественным. Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» — они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.

Как интерпретировать значение коэффициента корреляции Пирсона?

Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, изменяется ли (возрастает или уменьшается) один показатель в ответ на изменения другого? В статистических расчетах и выводах коэффициент корреляции обычно обозначается как rxy или Rxy.

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Условия: Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).

Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа.

Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа.

Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение каждой из сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена.

Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение rxy – тем выше теснота связи между двумя величинами. rxy = 0 говорит о полном отсутствии связи. rxy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения rxy < 0.3 свидетельствуют о слабой связи, значения rxy от 0.3 до 0.7 - о связи средней тесноты, значения rxy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока:


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: