Основные понятия, определения, формулы

Цель работы

Цель данной лабораторной работы заключается в освоении метода линейных компонент.

Краткая теоретическая часть

Основные понятия, определения, формулы

Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обслуживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.

Именно эти принципиальные установки заложены в сущность компонентного анализа. Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент. В этом методе линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.

Компонентный анализ предназначен для преобразования системы исходных признаков, в систему новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k – ая, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Модель компонентного анализа имеет вид:

(1.2.1)

где - “вес”, факторная нагрузка, - ой главной компоненты на j -ой переменной; - значение v – ой главной компоненты для i -ого наблюдения (объекта), где v =1,2,…, k.

(1.2.2)

В матричной форме модель (1.2.2) имеет вид:

где:

- матрица значений главных компонент размерности ;

- матрица факторных нагрузок размерности ;

- транспонированная матрица A;

- значение v – ой главной компоненты у i – ого наблюдения (объекта);

- значение факторной нагрузки v - ой главной компоненты на j -й переменной.

Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть:

(1.2.3)

(1.2.4)

а главные компоненты не коррелированны между собой. Из этого следует, что,

(1.2.5)

где,

- единичная матрица размерности .

Выражение (1.2.11) может быть также представлено в виде:

(1.2.6)

при

и 0 при

С целью интерпретации элементов матрицы A, рассмотрим выражение для парного коэффициента корреляции, между

- переменной и, например,

-ой главной компонентой. Будем иметь

Принимая во внимание, окончательно получим:

Рассуждая аналогично, можно записать в общем виде:

для всех и .

Таким образом, элемент матрицы факторных нагрузок А, характеризует тесноту линейной связи между - исходной переменной и - й главной компонентой, то есть .

Рассмотрим теперь выражение для дисперсии - й нормированной переменной. С учетом будем иметь:

где .

Окончательно получим:

По условию переменные нормированы и Таким образом, дисперсия -й переменной представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.