Ключевые слова: уравнение регрессии, коэффициенты регрессии, корелляция, коэффициенты корреляции, мультиколлинеарность, анализ остатков, функция потерь, метод наименьших квадратов
Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид, то такую форму представления изображают уравнением регрессии.
Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы:
− установление значимости связи между ними (статистический смысл термина значимость означает, что анализируемая зависимость проявляется сильнее, чем это можно было бы ожидать от чистой случайности);
− возможность представления этой зависимости в форме математического выражения (уравнения регрессии).
Корреляционный анализ позволяет сделать вывод о силе взаимосвязи между парами данных х и у, а регрессионный анализ используется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную
|
|
связь между анализируемыми совокупностями (см. рисунок 1)
Рисунок 1 – Основные идеи проведения корреляционного и регрессионного анализа
Взаимосвязи на языке математики обычно описываются при помощи функций, которые графически изображаются в виде линий. На рисунке 1 изображено несколько графиков функций. Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь — нелинейная. Если увеличение одной переменной связано с увеличением другой, то связь — положительная (прямая); если увеличение одной переменной связано с уменьшением другой, то связь — отрицательная (обратная). Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функция — монотонная; в противном случае функцию называют немонотонной.
Функциональные связи, подобные изображенным на рисунке 2, являются идеализациями. Их особенность заключается в том, что одному значению одной переменной соответствует строго определенное значение другой переменной. Например, такова взаимосвязь двух физических переменных — веса и длины тела (линейная положительная). Однако даже в физических экспериментах эмпирическая взаимосвязь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погрешностей измерения и пр.
|
|
Рисунок 2 - Примеры графиков часто встречающихся функций
При изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество возможных причин изменчивости этих признаков.
Результатом является то, что даже существующая в реальности функциональная связь между переменными выступает эмпирически как вероятностная (стохастическая): одному и тому же значению одной переменной соответствует распределение различных значений другой переменной (и наоборот).
Простейшим примером является соотношение роста и веса людей. Эмпирические результаты исследования этих двух признаков покажут, конечно, положительную их взаимосвязь. Но несложно догадаться, что она будет отличаться от строгой, линейной, положительной — идеальной математической функции, даже при всех ухищрениях исследователя по учету стройности или полноты испытуемых. (Вряд ли на этом основании кому-то придет в голову отрицать факт наличия строгой функциональной связи между длиной и весом тела.)
Итак, функциональная взаимосвязь явлений эмпирически может быть выявлена только как вероятностная связь соответствующих признаков.
Наглядное представление о характере вероятностной связи дает диаграмма рассеивания — график, оси которого соответствуют значениям двух переменных, а каждый испытуемый представляет собой точку (рисунок 3).
В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.
Коэффициент корреляции – числовая характеристика, количественная мера силы и направления вероятностной линейной взаимосвязи между двумя случайными величинами.
Сила связи достигает максимума при условии взаимно однозначного соответствия: когда каждому значению одной переменной соответствует только одно значение другой переменной (и наоборот), эмпирическая взаимосвязь при этом совпадает с функциональной линейной связью.
Показателем силы связи является абсолютная (без учета знака) величина коэффициента корреляции.
Рисунок 3 - Примеры диаграмм рассеивания и соответствующих коэффициентов корреляции
Направление связи определяется прямым или обратным соотношением значений двух переменных: если возрастанию значений одной переменной соответствует возрастание значений другой переменной, то взаимосвязь называется прямой (положительной); если возрастанию значений одной переменной соответствует убывание значений другой переменной, то взаимосвязь является обратной (отрицательной). Показателем направления связи является знак коэффициента корреляции.
Различают:
- парный;
- частный;
- множественный коэффициент корреляции.
Парный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными на фоне действия всех остальных показателей, входящих в модель.
Частный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными при исключении влияния всех остальных показателей, входящих в модель.
Парный и частный коэффициенты корреляции изменяются в пределах от -1 до +1.
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной) и остальными, входящими в модель; изменяется в пределах от 0 до 1. Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.