Многомерный стат анализ задачи снижения размерности. Факторный и компонентный анализ

В исследовательской и практической работе приходится сталкиваться с ситуацией, когда общее число признаков х₁, х₂, х₃ … х_р регистрируемых на каждом из множестве объектов (стран, регионов, семей) очень велико.

Тем не менее имеющиеся многомерные наблюдения следует подвергать статистической выборке (осмыслить, ввести в БВ, для того, чтобы иметь возможность использовать их в нужный момент).

Желание статистика представить любое из наблюдений хi в виде вектора z вспомогательных показателей.

с существенно меньшим, чем число р компонент р` бывает обусловлен следующим причинам:

необходимостью наглядного представления исходных данных, что достигается их проецированием на специально подобранное трехмерное пространство (p`=3) или двухмерное (р`=2) или одномерное (р`=1);

стремлением к локализму исследуемых моделей для упрощения счета и интерпретации полученных выводов;

Ограниченными возможностями человека в одновременном охвате большого числа частных критериев;

Например: в анализе ряда разноспекторных характеристик качества жизни человека. А отсюда, стремление к сверстке информации и этих частных критериев и переходу к интегральному индикатору.

Необходимостью сжатия объемов хранимой информации (стат) в специальной БД. При этом вспомогательные признаки z₁ z₂ …_zр могут вбираться из числа иходных признаков, либо явл их линейными комбинациями.

При формировании новой системы признаков k последним предъявляются разного рода требования, такие как: Наибольшая информативность (в определенном смысле) взаимная некоррелированность

Наименьшее искажение структуры их данных; В зависимости от варианта формальной конкретизации этих требований приходим к тому или иному алгоритму снижения размерности.

Имеется по крайней мер 3 основных тип принципиальных предпосылок, обуславливающих возможность перехода от большего числа р- исходных показателей, состояний исследуемой системы k существенно меньшему р` наиболее информативных переменных: дублирование информации (наличие взаимосвязанных признаков); не информативность (малая вариательность признака при переходе от одного объекта к др); возможность агригорования (т.е. простого суммирования или взаимного по некоторым группам).

Формально задача перехода с наименьшими потерями от р признаков к новому набору р` м.б. описана следующим образом: Пусть Z=Z(x)=Z(Z₁ Z₂ … Z_p`) Некоторая р` -мерная функция от исходных переменных.

И пусть У_р(Z(x)) – определенным образом заданная мера информативности р`-мерной системы признаков: Z= Z(Z₁(х) Z₂(х) … Z_p(х))Т

Конкретный выбор функционально зависит от специфики реально решаемых задач и оперяется на один из возможных критериев.

Критерия автноинформативности нацеленных на мах-ие сохранение информации, содержащейся в исходном массиве x_i, относительно самих исходных признаков.

Критерий внешней информативности, нацеленной на мах-ию «выжимания» из х_i информации относительно некоторых внешних показателей.

Тот или иной вариант конкретизации этой постановке приводит к конкретному методу снижения размерности, а именно: -методу гл. компонентов; -методу факторного анализа; -метод экстремальной группировке параметров.

Метод гл. компонент.

Во многих задачах обработки многомерных наблюдений и в частности в задачах классификации исследователя интересуют лишь те признаки, γ обнаруживают наибольшую изменчивость при переходе от одного объекта к др. С др стороны не обязательно для описания состояния объекта использовать какие-то из исходных замеренных на нем признаки (например, портной делает М изделий но для покупки достаточно 2 значения: рост и объем груди). Следуя общей оптимальности постановок задачи снижения размерности выражения:

можно принять в качестве меры информативности p`-мерной системы показателей. Тогда при любом фиксированном р` вектор Z искомых показателей вспомогательных переменных (новых) определяется как линейная комбинация Z= исходных данных, где - вектор центрированных исходных данных.

- принцип строки, γ удовлетворяет условию ортагональностьи.

Полученных т.о. переменные и называют гл. компонентами.

1-ой гл. компонентой явл та, γ обладает наибольшей дисперсией. Далее компоненты располагаются по мере убывания дисперсей. Вычисление гл. компонент. По исходным статистическим данным получить вектор ср. значений и квалификационную матрицу ∙Σ.

Для определения коэффициентов линейного преобразования, с помощью γ осуществляется переход к главным компонентам необходимо решить харак-ческое уравнение.