Коэффициент линейной корреляции Пирсона

Наиболее распространенный коэффициент корреляции. Предназначен для расчета силы и направления линейной зависимости между переменными исследования.

Смысл коэффициента линейной корреляции.

Коэффициент линейной корреляции отражает меру линейной зависимости между двумя переменными. Предполагается, что переменные измерены в интервальной шкале либо в шкале отношений.

Если представить две переменные на координатном поле, то каждая пара значений будет отображать координаты точки в этом поле. Чем ближе точки к усредненной прямой, тем выше коэффициент корреляции

Метод наименьших квадратов (МНК, OLS, Ordinary Least Squares) — один из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным. Метод основан на минимизации суммы квадратов остатков регрессии.

Необходимо отметить, что собственно методом наименьших квадратов можно назвать метод решения задачи в любой области, если решение заключается или удовлетворяет некоторому критерию минимизации суммы квадратов некоторых функций от искомых переменных. Поэтому метод наименьших квадратов может применяться также для приближённого представления (аппроксимации) заданной функции другими (более простыми) функциями, при нахождении совокупности величин, удовлетворяющих уравнениям или ограничениям, количество которых превышает количество этих величин и т.д.

Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, вообще говоря, необходимо знать и использовать все значения переменных генеральной совокупности, что практически невозможно. В связи с этим по выборке ограниченного объема строится так называемое выборочное (эмпирическое) уравнение регрессии. В силу несовпадения статистической базы для генеральной совокупности и выборки оценки коэффициентов, входящих в уравнение регрессии, практически всегда отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам.

Если некоторая физическая величина зависит от другой величины, то эту зависимость можно исследовать, измеряя y при различных значениях x. В результате измерений получается ряд значений:

x1, x2,..., xi,,..., xn;

y1, y2,..., yi,,..., yn.

По данным такого эксперимента можно построить график зависимости y = ƒ(x). Полученная кривая дает возможность судить о виде функции ƒ(x). Однако постоянные коэффициенты, которые входят в эту функцию, остаются неизвестными. Определить их позволяет метод наименьших квадратов. Экспериментальные точки, как правило, не ложатся точно на кривую. Метод наименьших квадратов требует, чтобы сумма квадратов отклонений экспериментальных точек от кривой, т.е. [yi – ƒ(xi)]2 была наименьшей.

На практике этот метод наиболее часто (и наиболее просто) используется в случае линейной зависимости, т.е. когда

y = kx или y = a + bx.

Линейная зависимость очень широко распространена в физике. И даже когда зависимость нелинейная, обычно стараются строить график так, чтобы получить прямую линию. Например, если предполагают, что показатель преломления стекла n связан с длиной λ световой волны соотношением n = a + b/λ2, то на графике строят зависимость n от λ-2.

Рассмотрим зависимость y = kx (прямая, проходящая через начало координат). Составим величину φ – сумму квадратов отклонений наших точек от прямой

.

Величина φ всегда положительна и оказывается тем меньше, чем ближе к прямой лежат наши точки. Метод наименьших квадратов утверждает, что для k следует выбирать такое значение, при котором φ имеет минимум


или
(19)

Вычисление показывает, что среднеквадратичная ошибка определения величины k равна при этом

, (20)
где – n число измерений.

Рассмотрим теперь несколько более трудный случай, когда точки должны удовлетворить формуле y = a + bx (прямая, не проходящая через начало координат).

Задача состоит в том, чтобы по имеющемуся набору значений xi, yi найти наилучшие значения a и b.

Снова составим квадратичную форму φ, равную сумме квадратов отклонений точек xi, yi от прямой

и найдем значения a и b, при которых φ имеет минимум

;

.

.

Совместное решение этих уравнений дает

(21)

. (22)

Среднеквадратичные ошибки определения a и b равны

(23)

. (24)

Линейная регрессия

Если функция регрессии линейна, то говорят о линейной регрессии. Линейная регрессия (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими переменными. Для этого простейшего случая имеем:

или

Последнее соотношение называется теоретической линейной регрессионной моделью; коэффициенты – теоретическими параметрами регрессии; – случайным отклонением.

По выборке ограниченного объема строится выборочное уравнение регрессии:

, (1)

где – оценки неизвестных параметров , называемые выборочными (эмпирическими) коэффициентами регрессии, – оценка условного математического ожидания . Для величин справедлива формула:

, (2)

где отклонение – оценка теоретического отклонения .

Построенная прямая выборочной регрессии должна наилучшим образом описывать эмпирические данные, т.е. коэффициенты должны быть такими, чтобы случайные отклонения были минимальны. Наиболее распространенным методом нахождения коэффициентов уравнения регрессии является метод наименьших квадратов (МНК).

Если по выборке требуется определить оценки выборочного уравнения регрессии (2), то вводится в рассмотрение и минимизируется функция:

.

Необходимым условием существования минимума данной функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам :

.

Отсюда:

,

выразив из последних соотношений коэффициенты, получим окончательно:

, (3)

где введены обозначения:

.

оэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

1) Сопоставать каждому из признаков их порядковый номер (ранг) по возрастанию (или убыванию).

2) Определить разности рангов каждой пары сопоставляемых значений.

3) Возвести в квадрат каждую разность и суммировать полученные результаты.

4) Вычислить коэффициент корреляции рангов по формуле:.

где - сумма квадратов разностей рангов, а - число парных наблюдений.

При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента равные 0,3 и менее, показателями слабой тесноты связи; значения более 0,4, но менее 0,7 - показателями умеренной тесноты связи, а значения 0,7 и более - показателями высокой тесноты связи.

Мощность коэффициента ранговой корреляции Спирмена несколько уступает мощности параметрического коэффициента корреляции.

Анализ БО, выбор вектора состояния и метода количественного описания БО.

Состояние биологического объекта описывается вектором состояния. Чтобы достаточно полно описать такой биообъект, как организм человека, необходимо оперировать с вектором состояния, содержащем огромное число компонент (n~ 104). Совершенно ясно, что для решения конкретных задач анализа и синтеза БТС такое число характеристик, как правило, не требуется. Поэтому проводят м инимизацию (редукцию) числа компонент вектора состояния.

На данном этапе рассматриваются лишь те свойства биологического объекта, которые необходимо регистрировать, исходя из целевого назначения данного типа БТС. После минимизации числа компонент вектора состояния практически используемое число m характеристик биообъекта существенно уменьшается: m<<n.

Например, при помощи телеметрической БТС (капсулы для исследования желудочно-кишечного тракта) производится контроль над тремя компонентами вектора состояния организма: давлением р, температурой Т, показателем кислотности рН.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: