Цель работы
Цель данной лабораторной работы заключается в освоении метода линейных компонент.
Краткая теоретическая часть
Основные понятия, определения, формулы
Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обслуживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.
С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.
Именно эти принципиальные установки заложены в сущность компонентного анализа. Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент. В этом методе линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.
Компонентный анализ предназначен для преобразования системы
исходных признаков, в систему
новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k – ая, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.
Модель компонентного анализа имеет вид:
|
где
- “вес”, факторная нагрузка,
- ой главной компоненты на j -ой переменной;
- значение v – ой главной компоненты для i -ого наблюдения (объекта), где v =1,2,…, k.
|

где:

- матрица значений главных компонент размерности
;
- матрица факторных нагрузок размерности
;
- транспонированная матрица A;
- значение v – ой главной компоненты у i – ого наблюдения (объекта);
- значение факторной нагрузки v - ой главной компоненты на j -й переменной.
Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть:
|
|
а главные компоненты не коррелированны между собой. Из этого следует, что,
|
где,
- единичная матрица размерности
.
Выражение (1.2.11) может быть также представлено в виде:
![]() |
|
при
и 0 при
![]() |
С целью интерпретации элементов матрицы A, рассмотрим выражение для парного коэффициента корреляции, между
- переменной и, например,
-ой главной компонентой. Будем иметь
![]() |
Принимая во внимание, окончательно получим:
Рассуждая аналогично, можно записать в общем виде:
для всех
и
.
Таким образом, элемент
матрицы факторных нагрузок А, характеризует тесноту линейной связи между
- исходной переменной и
- й главной компонентой, то есть
.
Рассмотрим теперь выражение для дисперсии
- й нормированной переменной. С учетом будем иметь:
где
.
Окончательно получим:
По условию переменные
нормированы и
Таким образом, дисперсия
-й переменной представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.
Полный вклад v -й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:
Компонентный анализ проводится в следующей последовательности.
|
|









