Метод главных компонент (МГК)

Пусть в примере (рис.1) имеется рассматриваемых объектов, для каждого из которых определено значение четырех признаков. В четырехмерном графическом пространстве с осями координат это может быть представлено как облако из точек. Если рассечь это четырехмерное пространство плоскостью, в которой находятся координатные оси, отвечающие признакам и , то в сечении окажется облако точек, которое в условиях взаимосвязи признаков и друг с другом представляет собой эллипс рассеяния.

Если переменные стандартизированы (то есть, центрированы и нормированы) (2) центр этого эллипса рассеяния будет находиться в точке начала координат, как показано на рисунке 3.

Вследствие нормировки главная ось эллипса проходит через первый и третий квадрант при , либо через второй и четвертый при . Форма этого эллипса (сжатость – вытянутость) будет определяться величиной коэффициента корреляции с , т.е. , Чем больше , тем более вытянут эллипс и при он превращается в прямую линию, а при - в круг. Проведем оси эллипса и . Ясно, что по мере увеличения происходит уменьшение степени разброса точек наблюдений вдоль одной оси эллипса (на рисунке – ось ) и увеличение разброса вдоль другой оси эллипса (на рисунке – ось ).

Рисунок 3

Если перейти от исходной координатной системы , к новой , , оси которой ориентированы вдоль осей эллипса рассеяния, то очевидно, что в новой системе координат значения переменной вдоль оси будут иметь меньшую дисперсию, чем в исходной системе вдоль оси , а значения этой переменной вдоль оси , наоборот, будут иметь большую дисперсию, чем в исходной системе вдоль оси .

Поэтому переменная несет в себе больше информации о выборке, чем . При этом, чем сильнее связаны между собой признаки и , тем большим становится удельный вес той из новых переменных, которая ориентируется вдоль главной оси эллипса рассеяния.

Следовательно, в случае многомерного пространства появляется возможность ранжирования переменных (признаков) по их дисперсии в соответствии с их вкладом (значимостью) в общую характеристику изучаемого объекта, т.е. по уменьшению дисперсии значений признаков вдоль новых координатных осей .

Можно предположить, что в многомерном пространстве облако точек выборочной многомерной совокупности по аналогии с рассмотренным выше двумерным случаем, представляет собой эллипсоид с несколькими разновеликими ортогональными осями. Поэтому в условиях взаимозависимости признаков для более компактного представления информации переходят к новой ортогональной системе координат (ориентированной по главным осям этого эллипсоида), которой отвечают новые переменные – главные компоненты ( и ). Они концентрируют в себе основную информацию об исходной выборке, что позволяет снизить размерность исходного признакового пространства (). Эта процедура перехода к новой ортогональной системе координат () и составляет сущность метода главных компонент (МГК).

Указанный переход не затрагивает геометрической структуры взаимного расположения точек наблюдений . Характер их распределения сохраняется. Поэтому суммарная дисперсия остается прежней, т.е.

(7)

(Рассматривается случай, когда число главных компонент равно числу наблюдаемых переменных).

Факторные нагрузки в уравнениях (5)-(6) представляют собой коэффициенты корреляции между исходными и новыми переменными:

.

Дисперсия случайных многомерных величин характеризуется ковариационной либо корреляционной матрицей.

Элементы ковариационной матрице являются ковариациями соответствующих переменных ( – номера признаков ( )). На диагонали матрицы расположены дисперсии переменных.

Корреляционная матрица содержит в качестве своих элементов линейные коэффициенты парной корреляции i –ого признака с j –тым признаком ( ). Диагональные элементы матрицы – дисперсии стандартизированных переменных равны 1.

. (8)

Суммарная дисперсия всей системы -признаков в выборочной совокупности объема равна сумме этих единиц, т.е. равна следу корреляционной матрицы .

Корреляционная матриц путем линейных преобразований может быть преобразована в диагональную, то есть матрицу, все значения которой, кроме диагональных, равны нулю. Превращение в нуль недиагональных членов означает, что признаки становятся независимыми друг от друга ( при ). Но и в этих условиях суммарная дисперсия всей системы -признаков в выборочной совокупности остается прежней. Однако её значение перераспределяется по -признакам.

Диагональные элементы полученной матрицы являются собственными значениями корреляционной матрицы . Эти собственные значения и есть величины дисперсии признаков в условиях, если бы признаки были бы независимыми друг от друга. Сумма этих собственных значений равна следу корреляционной матрицы, т.е. , то есть количеству переменных.

Процедура нахождения значений этих дисперсий представляет собой нахождение собственных значений корреляционной матрицы для каждого из -признаков. Корреляционную и диагональную матрицы связывает соотношение

, (9)

где - диагональная матрица, на главной диагонали которой находятся собственные числа корреляционной матрицы, - матрица, столбцы которой – собственные вектора корреляционной матрицы .

Нормированный собственный вектор равен

(10)

В случае использования стандартизированных исходных данных вектор собственных значений будет нормирован изначально.

Собственные значения могут быть найдены как корни характеристического уравнения

(11)

Собственный вектор , соответствующий собственному значению корреляционной матрицы , определяется как отличное от нуля решение уравнения

(12)

Каждое собственное значение корреляционной матрицы соответствуют одной главной компоненте, а доля -той компоненты в общей дисперсии может быть определена по формуле

(13)

Матрица факторных нагрузок содержит факторные нагрузки для всех -признаков и -факторов и может быть определена как

, (14)

Факторные нагрузки изменяются от –1 до +1 и являются аналогом коэффициентов корреляции. В матрице факторных нагрузок необходимо выделить значимые и незначимые нагрузки с помощью критерия Стьюдента. Расчетное значение критерия определяют по формуле

. (15)

Проверку гипотезы о значимости факторной нагрузки осуществляют путям сравнения с критическим значением или путем нахождения наблюдаемого значения уровня значимости.

Сумма квадратов нагрузок -ой компоненты по всем наблюдаемым признакам равна собственному значению данного фактора . Тогда можно определить вклад -ой переменной в формировании -ой компоненты:

. (15)

Вклад каждой из компонент в формировании значений того или иного признака составляет .

Сумма квадратов всех факторных нагрузок одной переменной на полный набор факторов по строке равна единице , то есть полной дисперсии одной стандартизированной переменной, а сумма квадратов всех факторных нагрузок всех факторов по всем переменным равна суммарной дисперсии (т.е. следу или порядку корреляционной матрицы, или сумме её собственных значений).

.

Таким образом, общий вклад всех главных компонент в суммарную дисперсию равен . Тогда удельный вклад -й главной компоненты определяется по формуле

.

Обычно для анализа используют первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%. Если главные компоненты упорядочены в порядке убывания, то суммарный вклад первых главных компонент определяется из выражения

.

Матрица факторных нагрузок А используется для смысловой интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для интерпретации главных компонент используется лишь часть переменных, для которых |факторные нагрузки являются значимыми.

В общем виде факторная структура –го признака представляется в форме , в которую включаются лишь значимые нагрузки. Матрицу значений главных компонент можно получить из формулы

Используя матрицу факторных нагрузок можно вычислить значения всех факторов для каждого наблюдения исходной выборочной совокупности по формуле:

, (15)

Вычисленные значения главных компонент широко используются для графического представления результатов факторного анализа.

По матрице факторных нагрузок может быть восстановлена корреляционная матрица: . Восстановленные только по главным компонентам коэффициенты корреляции будут меньше исходных по абсолютной величине, а на диагонали будут не 1, а значения общностей.

Часть дисперсии переменной, объясняемая оставленными главными компонентами, называется общностью. Для каждой переменной общность может быть вычислена по формуле

,

где - номер переменной, а -номер главной компоненты.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: