Когда величина коэффициента корреляции определяется в первую очередь способом подбора вариант в выборку, а не реальной зависимостью между изучаемыми признаками, то говорят о «ложной корреляции».
Величина коэффициента корреляции зависит от вытянутости эллипса рассеяния: чем больше длина главной оси эллипса отличается от сечения, тем выше значение коэффициента. Случайные единичные, а тем более парные значения могут резко повысить показатель силы связи признаков. Особенно чувствителен коэффициент корреляции к нулям, которые могут попасть в исходную матрицу при переносе данных между электронными таблицами.
Явление ложной корреляции возникает и в том случае, когда исследуемые показатели имеют в сумме постоянное значение, например 100%. Рассмотрим соотношение численности грызунов и насекомоядных в разных биотопах (табл. 14). Представители и первого, и второго отрядов чаще встречаются в коренных хвойных лесах, нежели в антропогенных стациях, тем более в агроценозах. Синхронность их реакции на трансформацию ландшафтов выражается высоким коэффициентом корреляции их численности r = 0.85.
|
|
Таблица 14
Биотоп | Численность (экз./100 конусо-суток) | Доля, P (%) | ||||
бурозубок | грызунов | общая | бурозубок | грызунов | общая | |
N б | N г | N о | N б/ N о | N г / N о | N о / N о | |
Кедровник | 0.46 | 0.54 | ||||
Смешанный | 0.44 | 0.56 | ||||
Экотон | 0.52 | 0.48 | ||||
Сосняк | 0.58 | 0.42 | ||||
Березняк | 0.47 | 0.53 | ||||
Луг | 0.53 | 0.47 | ||||
r | 0.85 | −1.00 |
Если же оценить зависимость между долей грызунов (Р г = N г /N о) и долей бурозубок (Р б = N б /N о) в этих стациях (между индексами доминирования), она составит r = −1.00. Дело в том, что эти показатели рассчитываются относительно общей суммы, поэтому доля полевок составляет разницу между 1 и долей бурозубок: Р г = 1 −Р б. По существу, мы имеем уравнение строго функциональной обратной регрессии (у = 1 − 1∙ х), которому соответствует, естественно, максимальный отрицательный коэффициент корреляции. Требование неизменности суммы двух показателей (1 или 100%), принятое для вычисления процентов, оказывается причиной постоянной обратной пропорции между этими показателями. Такая корреляция должна быть названа ложной, потому что характеризует не биологическую зависимость показателей, а способ их расчета. Когда общую сумму образуют три и более признаков, ложная корреляция будет отличаться от r = −1, но от этого не утратит своей природы математического артефакта.
При обработке массивов данных с большим числом производных признаков (индексы доминирования видов в сообществе, морфофизиологические индикаторы) нетрудно пропустить еще один вид ложной корреляции, которая наблюдается между двумя признаками, отнесенными к общей для них третьей переменной. По неосмотрительности коэффициенты связи между индексами могут быть восприняты как оценка зависимости между признаками. Такие корреляции, бессознательно наведенные третьим фактором, по сути являются ложными.
|
|
Безусловно, содержательную интерпретацию можно дать как корреляции признаков, так и корреляции индексов, но они будут кардинально отличаться. Например, среди нескольких видов куньих (от ласки до барсука) коэффициент корреляции между длиной тонкого и толстого отделов кишечника (r = 0.96) отражает простые морфологические пропорции: у крупного животного кишечник длиннее, чем у мелкого. Однако корреляция между индексами этих органов (размеров, отнесенных к длине тела особи) характеризует уже отличия диеты разных видов (r = 0.78): кишечник относительно меньше у облигатных хищников, нежели у полифагов. Однако в большом массиве производных значений такие отношения между индексами могут восприниматься как зависимости между признаками, что неизбежно приведет к ложным выводам.
Чтобы уйти от подобной двусмысленности, к обработке желательно привлекать только предварительно выверенные реальные исходные показатели, а не связанные методом расчета доли, проценты или индексы.