Основные понятия, определения, формулы

Цель работы

Цель данной лабораторной работы заключается в освоении метода линейных компонент.

Краткая теоретическая часть

Основные понятия, определения, формулы

Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обслуживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры че­ловека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как пока­зали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от боль­шого числа непосредственно замеряемых на объекте параметров.

Именно эти принципиальные установки заложены в сущность компонентного анализа. Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент. В этом методе линейные комбинации случайных величин определяются характе­ристическими векторами ковариационной матрицы. Главные компонен­ты представляют собой ортогональную систему координат, в которой дис­персии компонент характеризуют их статистические свойства.

Компонентный анализ предназначен для преобразования системы  исходных признаков, в систему  новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k – ая, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Модель компонентного анализа имеет вид:

(1.2.1)
                                                                                     

где - “вес”, факторная нагрузка, - ой главной компоненты на j -ой переменной;  - значение v – ой главной компоненты для i -ого наблюдения (объекта), где v =1,2,…, k.

(1.2.2)
В матричной форме модель (1.2.2) имеет вид:

где:

- матрица значений главных компонент размерности ;

 

- матрица факторных нагрузок размерности ;

- транспонированная матрица A;

 - значение v – ой главной компоненты у i – ого наблюдения (объекта);

 - значение факторной нагрузки v - ой главной компоненты на j -й переменной.

Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть:

(1.2.3)

(1.2.4)

 а главные компоненты не коррелированны между собой. Из этого следует, что,

(1.2.5)

где,

 

- единичная матрица размерности .

Выражение (1.2.11) может быть также представлено в виде:

 

(1.2.6)
 при  и 0 при

 

С целью интерпретации элементов матрицы A, рассмотрим выражение для парного коэффициента корреляции, между - переменной и, например, -ой главной компонентой. Будем иметь

 

Принимая во внимание, окончательно получим:

Рассуждая аналогично, можно записать в общем виде:

                                                                                     

для всех  и .

Таким образом, элемент  матрицы факторных нагрузок А, характеризует тесноту линейной связи между  - исходной переменной и - й главной компонентой, то есть .

Рассмотрим теперь выражение для дисперсии - й нормированной переменной. С учетом будем иметь:

где .

Окончательно получим:

                                                                                            

По условию переменные  нормированы и  Таким образом, дисперсия -й переменной представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v -й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:

                                                                                           

Компонентный анализ проводится в следующей последовательности.





Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow