Многомерный стат анализ задачи снижения размерности. Факторный и компонентный анализ

В исследовательской и практической работе приходится сталкиваться с ситуацией, когда общее число признаков х1, х2, х3 … хр регистрируемых на каждом из множестве объектов (стран, регионов, семей) очень велико.

Тем не менее имеющиеся многомерные наблюдения следует подвергать статистической выборке (осмыслить, ввести в БВ, для того, чтобы иметь возможность использовать их в нужный момент).

Желание статистика представить любое из наблюдений хi в виде вектора z вспомогательных показателей.

с существенно меньшим, чем число р компонент р` бывает обусловлен следующим причинам:

необходимостью наглядного представления исходных данных, что достигается их проецированием на специально подобранное трехмерное пространство (p`=3) или двухмерное (р`=2) или одномерное (р`=1);

стремлением к локализму исследуемых моделей для упрощения счета и интерпретации полученных выводов;

Ограниченными возможностями человека в одновременном охвате большого числа частных критериев;

Например: в анализе ряда разноспекторных характеристик качества жизни человека. А отсюда, стремление к сверстке информации и этих частных критериев и переходу к интегральному индикатору.

Необходимостью сжатия объемов хранимой информации (стат) в специальной БД. При этом вспомогательные признаки z1 z2 могут вбираться из числа иходных признаков, либо явл их линейными комбинациями.

При формировании новой системы признаков k последним предъявляются разного рода требования, такие как: Наибольшая информативность (в определенном смысле) взаимная некоррелированность

Наименьшее искажение структуры их данных; В зависимости от варианта формальной конкретизации этих требований приходим к тому или иному алгоритму снижения размерности.

Имеется по крайней мер 3 основных тип принципиальных предпосылок, обуславливающих возможность перехода от большего числа р- исходных показателей, состояний исследуемой системы k существенно меньшему р` наиболее информативных переменных: дублирование информации (наличие взаимосвязанных признаков); не информативность (малая вариательность признака при переходе от одного объекта к др); возможность агригорования (т.е. простого суммирования или взаимного по некоторым группам).

Формально задача перехода с наименьшими потерями от р признаков к новому набору р` м.б. описана следующим образом: Пусть Z=Z(x)=Z(Z1 Z2 … Zp`) Некоторая р` -мерная функция от исходных переменных.

И пусть Ур(Z(x)) – определенным образом заданная мера информативности р`-мерной системы признаков: Z= Z(Z1(х) Z2(х) … Zp(х))Т

Конкретный выбор функционально зависит от специфики реально решаемых задач и оперяется на один из возможных критериев.

Критерия автноинформативности нацеленных на мах-ие сохранение информации, содержащейся в исходном массиве xi, относительно самих исходных признаков.

Критерий внешней информативности, нацеленной на мах-ию «выжимания» из хi информации относительно некоторых внешних показателей.

Тот или иной вариант конкретизации этой постановке приводит к конкретному методу снижения размерности, а именно: -методу гл. компонентов; -методу факторного анализа; -метод экстремальной группировке параметров.

Метод гл. компонент.

Во многих задачах обработки многомерных наблюдений и в частности в задачах классификации исследователя интересуют лишь те признаки, γ обнаруживают наибольшую изменчивость при переходе от одного объекта к др. С др стороны не обязательно для описания состояния объекта использовать какие-то из исходных замеренных на нем признаки (например, портной делает М изделий но для покупки достаточно 2 значения: рост и объем груди). Следуя общей оптимальности постановок задачи снижения размерности выражения:

,

можно принять в качестве меры информативности p`-мерной системы показателей. Тогда при любом фиксированном р` вектор Z искомых показателей вспомогательных переменных (новых) определяется как линейная комбинация Z= исходных данных, где  - вектор центрированных исходных данных.

 - принцип строки, γ удовлетворяет условию ортагональностьи.

Полученных т.о. переменные и называют гл. компонентами.

1-ой гл. компонентой явл та, γ обладает наибольшей дисперсией. Далее компоненты располагаются по мере убывания дисперсей. Вычисление гл. компонент. По исходным статистическим данным получить вектор ср. значений и квалификационную матрицу ∙Σ.

Для определения коэффициентов линейного преобразования, с помощью γ осуществляется переход к главным компонентам необходимо решить харак-ческое уравнение.

где ε – единичная матрица соответствующего порядка, λ=(λ1, λ2, … λр) – собств-ые значения (числа), Σ- сигма.

найти относительные доли суммарной дисперсии, обусловленные этим компонентом

; ; …

К сожалению гл. компонента бывает сложно интерпретировать.

Х1- носит самую большую нагрузку.

Располагая исходными данными и используя уравнение для z1 (меняя значения х) можно посчитать значения 1-ой гл. компоненты для люб измеряемых пр-ий.

Интерпретируем z1 как объясняющую переменную и записываем уравнения хi=f(z1) (уравнение парной регрессии) для люб исходного показателя.




Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: