Факторный анализ

Является разделом многомерной статистики.

Пусть мы имеем N-лиц и n-вопросов-переменных, то есть мы имеем таблицу (матрицу), в которой по столбцам расположены ответы конкретного лица на вопросы, а по строкам- ответы лиц на определенный вопрос. Существенно здесь, что переменные должны быть количественные, то есть ответ должен выражаться числом (возраст, доход, разряд и т.п.)

Смысл факторного анализа заключается в том, что принято считать данные n-переменных линейными функциями меньшего числа других переменных, называемых факторами. Факторы выступают более фундаментальными переменными, характеризующими явление. А исходные переменные как бы объединяются в группы, каждая из которых представляет собой некоторый фактор.

Задача А – найти эти факторы. Так как фактор представляет собой объединений определенных переменных, то из этого следует, что эти переменные связаны друг с другом и обладают корреляцией. Причем большей между собой, чем с другими переменными,входящими в другой фактор.

Методы отыскания факторов основываются на использовании парных коэффициентов корреляции между переменными.

Факторный анализ дает нетривиальное решение. Это решение нельзя каким-то образом предвидеть, не применяя специальную технику извлечения факторов. Но это решение имеет большое значение для характеристики социального явления, так как вначале оно характеризовалось n-переменными, а в результате анализа оказалось, что оно характеризуется меньшим числом q-переменных, называемых факторами.

Теперь в несколько упрощенном виде выразим математически основную идею факторного анализа. Все это можно изобразить в виде матрицы, состоящей из хij, где i=1…N, j=1…n.

Основная мысль Факторного анализа – представление эмпирических переменных в качестве линейных комбинаций меньшего числа других переменных, называемых факторами. Если предположить, что общие факторы некоррелированны, то описанная ситуация может быть выражена для q – некоррелированных факторов с помощью следующего уравнения:

где - стандартная оценка человека i при выполнении теста j

- содержание или нагрузка фактора q в тесте j

- объем фактора q (способности) у обследуемого человека i

Дадим трактовку уравнению: все С имеют индекс j, а не i, так как относятся к тестам, а не людям. Они показывают, в какой мере данный тест требует определенных способностей. Все х имеют индексы i, а не j, так как относятся к отдельным обследуемым людям, а не к тестам. Они показывают, в какой степени данный человек обладает соответствующим качеством.

Предположим, что способность (фактор) 1 является решающим условием для выполнения теста j, тогда Сj1 – будет положительным и высоким. Если одновременно человек i наделен в достаточной степени данной способностью, то есть х1i будет положительным и высоким, то произведение Сj1 и х1i будет вносить значительный вклад в оценку человека по данному тесту.

Если способность 2 совершенно не нужна для выполнения данного теста, то Сj2=0. Таким образом, даже если х2i будет положительным и высоким, то есть человек в достаточной степени наделен этой способностью, то произведение все равно будет равно 0, то есть для данного теста и человека эта способность не влияет на оценку по данному тесту.

Пример: Факторный анализ был применен по данным исследования 65 городов по 7 переменным (тестам, показателям). Была получена следующая таблица:

Переменные Города
          ……..  
               
               
               
               
               
               
               
                 

1 – число рабочих на 1000 занятых лиц

2 – число лиц от 25 и старше с законченным или незаконченным высшим образованием

3 – средний доход

4 – число детей на 1000 женщин в возрасте до 50 лет

5 – число работающих на производстве женщин на 1000 женщин в возрасте от 17 лет и старше

6 – процент семей, живущих в отдельных квартирах и домах

7 – число эмигрантов на 1000 лиц

Был применен факторный анализ к этим данным, и была получена матрица факторных весов следующего вида:

Переменные Факторы
     
  0,482 0,193 - 0,094
  0,419 - 0,044 0,282
  0,613 - 0,192 - 0,189
  0,109 0,562 0,176
  0,148 0,617 - 0,193
  - 0,147 0,727 0,015
  0,109 0,047 0,576

По каждому фактору выделяем факторные нагрузки, значения которых превышают 0,4 и являются наибольшими в строке.

Интерпретация факторов:

Так как в первом факторе сыграли важную роль 1,2 и 3 переменные, то этот фактор мы можем назвать - «экономический статус города»

Во втором факторе сыграли важную роль 4, 5 и 6 переменные, следовательно, его можно назвать – «социально-семейным»

Третий фактор можно назвать «национальный».

Далее выводятся индексы городов по каждому фактору по следующей формуле:

где - индекс города для фактора

- факторный вес i-переменной по j-фактору

- стандартный балл i-переменной

Далее для каждого фактора города ранжируются по величине его индекса.

Основное уравнение факторного анализа:

Процесс выделения факторов начинается с составления матрицы коэффициентов корреляции. Если переменных n, то парные коэффициенты корреляции между ними образуют квадратную симметричную матрицу порядка n. В этом случае переменная может быть представлена как сумма факторов, умноженная на некоторые коэффициенты, которые определяются из матрицы корреляции. Матрица, составленная из коэффициентов корреляции, называется матрицей корреляции или корреляционной матрицей. Элементы этой матрицы являются коэффициентами корреляции между всеми переменными данной совокупности.

Если мы имеем набор, состоящий из n-вопросов, то число коэффициентов корреляции можно рассчитать по формуле:

Эти коэффициенты заполняют половину матрицы, находящуюся по первую сторону от ее главной диагонали, а по другую сторону находятся эти же коэффициенты.

r12=r21

Матрица корреляции, у которой главная диагональ равна 1, называется полной матрицей корреляции.

Факторы бывают:

1. общие для всех переменных

2. специфические, присущие лишь отдельным переменным

3. обусловленные ошибкой, вызываемые неточностью наблюдений

Если мы на главной диагонали помещаем единицы, то значит принимаем во внимание влияние не только общих, но и специфических факторов, и факторов, обусловленных ошибкой. Наоборот, если на главной диагонали корреляционной матрицы находятся элементы, не равные единице, соответствующие общностям и относящиеся лишь к общим факторам. Здесь не учитывается влияние специфических факторов и ошибок. Такая матрица называется редуцированной и обозначается R.

Факторная нагрузка имеет вид коэффициента корреляции между данной переменной и данным фактором. Матрица, столбцы которой состоят из нагрузок данного фактора применительно ко всем переменным данной совокупности, а строки – из факторных нагрузок данной переменной, называется матрицей факторов или факторной матрицей. Здесь тоже можно говорить о полной и редуцированной факторной матрице.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: