Цель работы
Цель данной лабораторной работы заключается в освоении метода линейных компонент.
Краткая теоретическая часть
Основные понятия, определения, формулы
Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обслуживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.
С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.
|
|
Именно эти принципиальные установки заложены в сущность компонентного анализа. Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент. В этом методе линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.
Компонентный анализ предназначен для преобразования системы исходных признаков, в систему новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k – ая, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.
Модель компонентного анализа имеет вид:
|
где - “вес”, факторная нагрузка, - ой главной компоненты на j -ой переменной; - значение v – ой главной компоненты для i -ого наблюдения (объекта), где v =1,2,…, k.
|
|
|
где:
- матрица значений главных компонент размерности ;
- матрица факторных нагрузок размерности ;
- транспонированная матрица A;
- значение v – ой главной компоненты у i – ого наблюдения (объекта);
- значение факторной нагрузки v - ой главной компоненты на j -й переменной.
Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть:
|
|
а главные компоненты не коррелированны между собой. Из этого следует, что,
|
где,
- единичная матрица размерности .
Выражение (1.2.11) может быть также представлено в виде:
|
С целью интерпретации элементов матрицы A, рассмотрим выражение для парного коэффициента корреляции, между - переменной и, например, -ой главной компонентой. Будем иметь
Принимая во внимание, окончательно получим:
Рассуждая аналогично, можно записать в общем виде:
для всех и .
Таким образом, элемент матрицы факторных нагрузок А, характеризует тесноту линейной связи между - исходной переменной и - й главной компонентой, то есть .
Рассмотрим теперь выражение для дисперсии - й нормированной переменной. С учетом будем иметь:
где .
Окончательно получим:
По условию переменные нормированы и Таким образом, дисперсия -й переменной представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.
Полный вклад v -й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:
Компонентный анализ проводится в следующей последовательности.
|