Факторный анализ

Является разделом многомерной статистики.

Пусть мы имеем N-лиц и n-вопросов-переменных, то есть мы имеем таблицу (матрицу), в которой по столбцам расположены ответы конкретного лица на вопросы, а по строкам- ответы лиц на определенный вопрос. Существенно здесь, что переменные должны быть количественные, то есть ответ должен выражаться числом (возраст, доход, разряд и т.п.)

Смысл факторного анализа заключается в том, что принято считать данные n-переменных линейными функциями меньшего числа других переменных, называемых факторами. Факторы выступают более фундаментальными переменными, характеризующими явление. А исходные переменные как бы объединяются в группы, каждая из которых представляет собой некоторый фактор.

Задача А – найти эти факторы. Так как фактор представляет собой объединений определенных переменных, то из этого следует, что эти переменные связаны друг с другом и обладают корреляцией. Причем большей между собой, чем с другими переменными,входящими в другой фактор.

Методы отыскания факторов основываются на использовании парных коэффициентов корреляции между переменными.

Факторный анализ дает нетривиальное решение. Это решение нельзя каким-то образом предвидеть, не применяя специальную технику извлечения факторов. Но это решение имеет большое значение для характеристики социального явления, так как вначале оно характеризовалось n-переменными, а в результате анализа оказалось, что оно характеризуется меньшим числом q-переменных, называемых факторами.

Теперь в несколько упрощенном виде выразим математически основную идею факторного анализа. Все это можно изобразить в виде матрицы, состоящей из х_ij, где i=1…N, j=1…n.

Основная мысль Факторного анализа – представление эмпирических переменных в качестве линейных комбинаций меньшего числа других переменных, называемых факторами. Если предположить, что общие факторы некоррелированны, то описанная ситуация может быть выражена для q – некоррелированных факторов с помощью следующего уравнения:

где - стандартная оценка человека i при выполнении теста j

- содержание или нагрузка фактора q в тесте j

- объем фактора q (способности) у обследуемого человека i

Дадим трактовку уравнению: все С имеют индекс j, а не i, так как относятся к тестам, а не людям. Они показывают, в какой мере данный тест требует определенных способностей. Все х имеют индексы i, а не j, так как относятся к отдельным обследуемым людям, а не к тестам. Они показывают, в какой степени данный человек обладает соответствующим качеством.

Предположим, что способность (фактор) 1 является решающим условием для выполнения теста j, тогда С_j1 – будет положительным и высоким. Если одновременно человек i наделен в достаточной степени данной способностью, то есть х₁_i будет положительным и высоким, то произведение С_j1и х₁_i будет вносить значительный вклад в оценку человека по данному тесту.

Если способность 2 совершенно не нужна для выполнения данного теста, то С_j2=0. Таким образом, даже если х₂_i будет положительным и высоким, то есть человек в достаточной степени наделен этой способностью, то произведение все равно будет равно 0, то есть для данного теста и человека эта способность не влияет на оценку по данному тесту.

Пример: Факторный анализ был применен по данным исследования 65 городов по 7 переменным (тестам, показателям). Была получена следующая таблица:

Переменные	Города
		……..

1 – число рабочих на 1000 занятых лиц

2 – число лиц от 25 и старше с законченным или незаконченным высшим образованием

3 – средний доход

4 – число детей на 1000 женщин в возрасте до 50 лет

5 – число работающих на производстве женщин на 1000 женщин в возрасте от 17 лет и старше

6 – процент семей, живущих в отдельных квартирах и домах

7 – число эмигрантов на 1000 лиц

Был применен факторный анализ к этим данным, и была получена матрица факторных весов следующего вида:

Переменные	Факторы

	0,482	0,193	- 0,094
	0,419	- 0,044	0,282
	0,613	- 0,192	- 0,189
	0,109	0,562	0,176
	0,148	0,617	- 0,193
	- 0,147	0,727	0,015
	0,109	0,047	0,576

По каждому фактору выделяем факторные нагрузки, значения которых превышают 0,4 и являются наибольшими в строке.

Интерпретация факторов:

Так как в первом факторе сыграли важную роль 1,2 и 3 переменные, то этот фактор мы можем назвать - «экономический статус города»

Во втором факторе сыграли важную роль 4, 5 и 6 переменные, следовательно, его можно назвать – «социально-семейным»

Третий фактор можно назвать «национальный».

Далее выводятся индексы городов по каждому фактору по следующей формуле:

где - индекс города для фактора

- факторный вес i-переменной по j-фактору

- стандартный балл i-переменной

Далее для каждого фактора города ранжируются по величине его индекса.

Основное уравнение факторного анализа:

Процесс выделения факторов начинается с составления матрицы коэффициентов корреляции. Если переменных n, то парные коэффициенты корреляции между ними образуют квадратную симметричную матрицу порядка n. В этом случае переменная может быть представлена как сумма факторов, умноженная на некоторые коэффициенты, которые определяются из матрицы корреляции. Матрица, составленная из коэффициентов корреляции, называется матрицей корреляции или корреляционной матрицей. Элементы этой матрицы являются коэффициентами корреляции между всеми переменными данной совокупности.

Если мы имеем набор, состоящий из n-вопросов, то число коэффициентов корреляции можно рассчитать по формуле:

Эти коэффициенты заполняют половину матрицы, находящуюся по первую сторону от ее главной диагонали, а по другую сторону находятся эти же коэффициенты.

r₁₂=r₂₁

Матрица корреляции, у которой главная диагональ равна 1, называется полной матрицей корреляции.

Факторы бывают:

1. общие для всех переменных

2. специфические, присущие лишь отдельным переменным

3. обусловленные ошибкой, вызываемые неточностью наблюдений

Если мы на главной диагонали помещаем единицы, то значит принимаем во внимание влияние не только общих, но и специфических факторов, и факторов, обусловленных ошибкой. Наоборот, если на главной диагонали корреляционной матрицы находятся элементы, не равные единице, соответствующие общностям и относящиеся лишь к общим факторам. Здесь не учитывается влияние специфических факторов и ошибок. Такая матрица называется редуцированной и обозначается R.

Факторная нагрузка имеет вид коэффициента корреляции между данной переменной и данным фактором. Матрица, столбцы которой состоят из нагрузок данного фактора применительно ко всем переменным данной совокупности, а строки – из факторных нагрузок данной переменной, называется матрицей факторов или факторной матрицей. Здесь тоже можно говорить о полной и редуцированной факторной матрице.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

13 14 15 16 17 18 19

Правовое положение сословий в Российском государстве в XVIII веке

Калибры, виды и назначение. Контроль параметров макрогеометрии деталей калибрами

Классификация методов обучения

Примеры решения задач. Определите рентабельность продукции по следующим данным: количество выпущенных изделий за квартал - 1 500 штук

Виды деятельности. Существуют различные классификации видов деятельности:

Показатели движения численности работников. Пример 1,2

Самый сильный аргумент, почему эволюция человека не могла быть