Факторный анализ

Дискриминантный анализ

Дискриминантный анализ позволяет проверить гипотезу о возможности классификации заданного множества объектов п, характеризуемых некоторым числом т переменных X, на некоторое число классов или кластеров к. Он позволяет объективно классифицировать новые объекты по этим переменным.

При выполнении анализа ищется набор дискриминирующих функций d_l обеспечивающих классификацию объектов на заданное число классов:

d_l= b_l0+ b₁₁· X_l +... + b_lm- X_m, l= 1 ,...k.

Исходные данные представляются в виде матрицы размером (т + 1) х п, причем п строк характеризуют п объектов. Первые т столбцов — это значения т переменных для п объектов, а т + 1-й столбец для каждого объекта — это номер его класса. Классы нумеруются натуральными числами от 1 до к, где к — число классов. Объекты, характеризуемые строками в матрице, могут располагаться произвольно относительно номеров классов.

Если кроме вычисления дискриминирующей функции нужно с ее помощью классифицировать ряд новых объектов, то такие объекты также исходно включаются в матрицу данных с номером класса 0.

Результаты анализа представляют собой следующие оценки:

суммарное межкластерное расстояние Махаланобиса D² (Mahalanobis) между классами с уровнем значимости Р для нулевой гипотезы "D² = 0", то есть гипотезы о невозможности разбиения совокупности объектов на заданное число классов;

коэффициенты дискриминирующей функции, обеспечивающей отнесение объектов к данному классу, отдельно для каждого класса;

данные для каждого объекта j, в том числе номер его класса r, расстояние Махаланобиса D_j² от объекта до центра класса, уровень значимости Р нулевой гипотезы " D_j ² = 0", то есть гипотезы о том, что объект может быть отнесен к данному классу, а также вероятность Р_jr отнесения объекта к этому классу.

Если Р > 0,05, соответствующая нулевая гипотеза может быть принята.

Если начальное разбиение на классы нельзя произвести с достаточной степенью уверенности, можно предварительно выполнить кластерный анализ с использованием дивизивной стратегии разбиения и испробовать несколько вариантов числа группировок.

Переменные, значения которых представляют данные статистики или которые можно измерять в эксперименте, имеют для исследуемого объекта или явления нередко достаточно условный характер. Они могут лишь опосредованно отражать его внутреннюю структуру, движущие силы или факторы.

Исследователь рынка, аналитик органа планирования ограничен набором показателей, традиционно используемых в официальной статистике, в анкетах для опросов. Когда неизвестный фактор проявляется в изменении нескольких переменных, в процессе анализа можно наблюдать существенную корреляцию или связь между переменными. Тем самым число независимых, первоначально скрытых факторов может быть существенно меньше, чем число традиционно используемых показателей, которые выбирают достаточно субъективно.

Степень влияния фактора на некоторый показатель статистически характеризуется величиной дисперсии, то есть разбросом значения этого показателя при изменении значений фактора. Если расположить оси исходных переменных ортогонально друг к другу, то можно обнаружить, что в этом пространстве объекты группируются своим расположением, определенным координатами точек, в виде некоторого облака или эллипса рассеяния, более вытянутого в одних направлениях и почти плоского в других.

Если провести новые оси соответственно осям эллипса рассеяния, то можно говорить о выделении факторов, более субстанциальных по сравнению с исходными переменными, и оценивать сравнительную значимость этих факторов в терминах дисперсии. При этом обычно оказывается, что толщина такого облака рассеяния по некоторым осям настолько мала, что эти оси можно в дальнейшем вовсе исключить из рассмотрения.

Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей. Однако очень быстро этот метод завоевал популярность в экономических исследованиях, прогнозировании и планировании. Наиболее широко используется метод главных компонент.

Как правило, основной задачей факторного анализа является нахождение сокращенной системы существенных факторов в пространстве регистрируемых переменных, что включает следующие этапы:

выделение первоначальных факторов; этот этап включает вычисление главных компонент и выбор в качестве факторов тех компонент, которые отвечают за большую часть дисперсии, рассеяния данных наблюдения;

вращение выделенных факторов с целью облегчения их интерпретации в терминах исходных переменных; содержательная интерпретация новых факторов является творческой задачей исследователя, выходящей за рамки формального метода, однако она может принести много полезного для дальнейшего понимания объекта исследования.

Исходные данные представляются в виде матрицы размером т х п, содержащей данные одного из следующих двух типов:

значения т переменных для п объектов;

квадратная матрица корреляции между т переменными.

Анализ выполняется следующим образом.

Если исходные данные представляют собой значения т переменных для п объектов, то можно использовать один из двух методов анализа:

по корреляционной матрице;

по ковариационной матрице.

Использование ковариационной матрицы сравнительно менее употребительно и позволяет в вычислениях учитывать не только степень взаимосвязанности, коррелированное™ переменных, но и абсолютную величину ковариаций.

Производится выделение главных компонент, для каждого компонента находят:

собственное значение, пропорциональное части общей дисперсии экспериментальных данных, приходящейся на данный фактор, то есть объясняемой им;

процент полной дисперсии, приходящейся на каждый фактор;

процент накопленной дисперсии.

Малозначительные компоненты, собственные значения которых составляют менее 1—2% накопленной дисперсии, обычно опускаются. В процессе анализа могут быть получены следующие результаты:

матрица собственных векторов а, в которой строки соответствуют исходным переменным X, столбцы — факторам Z, ее элементы представляют собой коэффициенты перехода от системы исходных координат X к координатной системе факторов Z: z_i, = Σa_ij ·x_j;

таблица координат объектов в новой системе факторов (только для исходных данных типа переменные—объекты);

рисунки проекций объектов в новой системе координат на плоскость двух факторов, номера которых указываются в следующем бланке;

график собственных значений факторов в порядке их убывания, который облегчает выбор числа значимых факторов;

значения нагрузок каждой исходной переменной, показывающие относительные величины проекции переменной на факторную координатную ось; чем больше нагрузка, тем больше близость фактора к исходной переменной, меньше угол девиации между ними в многомерном пространстве;

графики факторных нагрузок в проекции на плоскости каждой из двух выбранных переменных.

Для облегчения интерпретации факторов можно произвести вращение факторов в пространстве переменных. Вращение позволяет получить более простую структуру системы факторов, при которой каждый фактор имеет большие нагрузки на малое число переменных и малые нагрузки на остальные переменные. Используют различные методы вращения.

Метод квартимакс имеет тенденцию к выделению генерального фактора, что упрощает интерпретацию за счет уменьшения числа факторов, связанных с каждой переменной. Более употребительный метод варимакс обеспечивает лучшее разделение факторов за счет уменьшения числа переменных, связанных с каждым фактором. Методы эквимакс и биквартымакс дают промежуточный эффект.

Перед вращением желательно выполнить нормализацию факторных нагрузок, чтобы исключить влияние на результат переменных с большой общностью. По окончании вращения проверить общность и специфичность каждого фактора и оценить новые факторные нагрузки.

Пример. Оценим факторы изменения структуры хозяйства стран с рыночной экономикой во второй половине XX в. в связи с началом распространения шестого технологического уклада. Используем систематизированные в работе Б.М.Болотина и В.Л.Шейниса данные за период 50—80-е годы по укрупненным регионам капиталистического мира:

США;

Европа (Западная);

Япония;

Америка (Латинская);

Восток (Ближний и Средний);

Азия (Южная, Восточная и Юго-Восточная);

Африка.

В качестве первичных переменных используем доли занятости по укрупненным отраслям хозяйства:

сельское хозяйство,

промышленность,

строительство,

транспорт и связь,

торговля,

услуги.

К сельскому хозяйству относится также лесное хозяйство и другие подобные сельскохозяйственному производства. В состав занятых в торговле включались работающие в заготовительных, снабженческих организациях. К услугам были отнесены все занятые в прочих отраслях услуг, включая культуру, науку, образование, управление и др. Данные представляют собой среднегодовые показатели по пятилетним периодам.

Используем систему STADIA 5.0. Введем показатели по регионам в строки, а по отраслям — в столбцы таблицы данных. Обработаем поочередно данные по пятилетним периодам: сначала данные за первый пятилетний период, затем будем вводить и обрабатывать массивы данных по 42 числа за каждый последующий период. Используем блок "Статистика" и процедуру "Факторный анализ".

Факторный анализ, выполняемый методом главных компонент, позволяет на уровне 99% общности представить первичные переменные в виде трех, а в 1981—1985 гг. — четырех независимых факторов. Собственные значения факторов приведены в табл. 1.

Предварительную идентификацию факторов выполним по факторным нагрузкам на первичные переменные — доли занятости в отраслях хозяйства. Первичная идентификация факторов позволила установить изменение их характера. В течение всего периода оказалось возможным выделить четыре фактора. Условные названия этих факторов указывают на их связь с каким-либо сектором или отраслью народного хозяйства: ФСК — фактор строительства и коммуникаций; ФУ — фактор услуг; ФТ — фактор товарообмена; ФП — фактор промышленности.

Таблица 1 - Собственные значения факторов отраслевой структуры стран с рыночной экономикой

Ранг фактора	Величина собственного значения фактора по годам
1951— 1955	1956— 1960	1961— 1965	1966— 1970	1971 — 1975	1976— 1980	1981 — 1985
1 2 3 4	5,576 0,1394 0,1301 0	5,448 0,3100 0,1775 0	5,251 0,4977 0,1754 0	5,227 0,5632 0,1196 0	5,253 0,4944 0,1354 0	5,079 0,5430 0,2384 0	4,856 0,7166 0,2619 0,1326

В табл. 2 приведены нагрузки факторов на первичные переменные.

Таблица 2 - Факторные нагрузки на первичные переменные в 1981—1985 гг.

Отрасль экономики	Нагрузки факторов
	ФСК	ФУ	ФТ	ФП
Сельское хозяйство Промышленность Строительство Транспорт и связь Торговля Услуги	+ 0,4338 - 0,4454 - 0,8689 - 0,8628 - 0,4903 - 0,1747	+ 0,6573 - 0,4403 - 0,0828 - 0,4230 - 0,4029 - 0,9451	+ 0,4105 - 0,3274 - 0,3536 - 0,1655 - 0,6915 - 0,0179	+ 0,4187 - 0,7070 - 0,3134 - 0,1958 - 0,3416 - 0,2010

В табл. 3 приведены результаты предварительной условной идентификации факторов.

Таблица 3 - Значимость факторов отраслевой структуры занятости

Ранг фактора	Факторы по годам
1951 — 1955	1956— 1960	1961 — 1965	1966— 1970	1971 —	1976— 1980	1981-1985
1 2 3 4	ФТ ФСК ФУ -	ФТ ФСК ФУ -	ФСК ФУ ФТ -	ФСК ФУ ФТ -	ФСК ФУ ФТ -	ФСК ФУ ФТ -	ФСК ФУ ФТ ФП

Рассматривая величины собственных значений факторов отраслевой структуры, можно отметить, что в период протекания переходных процессов в экономике, наблюдавшихся во второй половине 70-х и первой половине 80-х годов, величины собственных значений факторов существенно меняются. Величина ведущего фактора падает, величины менее значимых факторов существенно возрастают. На завершающем этапе кризиса в дополнение к отмечавшимся ранее добавляется новый фактор, как это имело место в 1981 — 1985 гг.

Смена ведущих факторов, прошедшая в начале 60-х годов, не сопровождалась столь резкими изменениями их величины. Это легко объяснимо с учетом их предварительной идентификации. Начало исследуемого периода можно считать временем безусловного доминирования в развитых странах четвертого технологического уклада. Следствием этого являлась стабильность функционирования системы рыночной экономики, основанной на товарообмене в форме торговли.

Далее могут быть использованы исходные данные стран, регионов в координатах факторов по объектам. Их пример приведен в табл. 4. Поскольку точная экономическая идентификация факторов не входит в задачу примера предоставим это заинтересованным читателям. И продолжим оценку только новых факторов изменения отраслевой структуры экономики в 80-х годах.

Таблица 4 - Исходные данные в координатах факторов по объектам в 1981—1985 гг.

Регион	Нагрузки факторов
ФСК	ФУ	ФТ	ФП
США Европа Япония Америка (Латинская) Восток (Ближний и Средний) Азия Африка	- 1,797 - 2,022 - 2,447 + 0,068 + 0,679 + 2,496 + 3,026	- 1,392 + 0,010 + 1,354 - 0,204 + 0,026 - 0,379 + 0,586	- 0,121 - 0,103 - 0,291 + 0,304 + 0,927 - 0,710 - 0,006	- 0,461 + 0,587 - 0,267 + 0,183 + 0,026 + 0,219 - 0,288

Можно полагать, что с 60-х годов распространение пятого технологического уклада постепенно обеспечивало все большую долю ВВП в развитых странах. Они получали преимущества за счет создания и распространения новшеств, что, очевидно, связано с необходимостью развития строительства и коммуникации материального и нематериального характера. Эти процессы обусловили выход на первое место с 60-х годов фактора строительства и коммуникации на смену фактору товарообмена.

Рассматривая комплекс факторов отраслевой структуры стран с рыночной экономикой, можно видеть, что за период с 1951 по 1980 г. фактор промышленности не входил в число оказывающих влияние на экономическое развитие. Этот результат анализа не является неожиданным, так как экономическое развитие задолго до 50-х годов перешло в постиндустриальную форму.

Однако в 1981 — 1985 гг. в отраслевой структуре стал значимым фактор промышленности, причем по этому фактору наиболее развитые страны США и Япония стали отличаться от остальных. Для анализа этого явления выполним факторный анализ динамики структуры промышленности в период 1951—1985 гг.

Факторный анализ основных укрупненных отраслей промышленности по долям занятости позволяет установить следующее.

На протяжении всего периода развитие характеризовалось двумя факторами. Ведущим был фактор обрабатывающей промышленности. Вторым по значению — фактор промышленности, обеспечивающей энергоснабжение, в состав которой входят промышленные предприятия электро-, газо-, водоснабжения.

Развитие добывающей промышленности в течение всего периода определялось двумя основными факторами. Первым по значению был фактор, связанный с нефтегазовой промышленностью. Наибольшие нагрузки этого фактора в течение всего периода приходились на развивающиеся страны. Эта тенденция с 1951 по 1985 г. менялась очень медленно.

Вторым по значению оказался фактор, тесно связанный с горнорудной промышленностью, развитие которой в еще большей степени было характерно для стран с низким уровнем душевого ВВП.

Поскольку изменения в общей структуре промышленности, в структуре добывающей промышленности носили плавный количественный характер и не были связаны с качественными изменениями в хозяйстве стран с рыночной экономикой, был выполнен анализ обрабатывающей промышленности.

Рассматривались укрупненные отрасли, занятость в которых составила не менее 3—4% всех работающих в этом типе промышленности капиталистического мира в целом. Первичные переменные — доли занятости по отраслям обрабатывающей промышленности — удалось на уровне 97% общности свести к четырем независимым факторам.

Идентификация этих факторов была выполнена по их связи с первичными переменными для стран с максимальными размерами душевого ВВП и по нагрузкам. В результате выполненного анализа удалось установить, что в 1981—1985 гг. произошло качественное изменение значимости факторов по сравнению с предшествующим периодом.

В этот и предшествующие периоды независимые факторы, условно идентифицированные по признакам, указанным выше, оказались одними и теми же, но порядок их значимости изменился:

фактор, тесно связанный с машиностроением (ФМАШ);

фактор, тесно связанный с металлургией (ФМЕТ);

фактор, тесно связанный с химической промышленностью (ФХИМ);

фактор, тесно связанный с полиграфией (ФПОЛ).

До 1981 г. значимость факторов была неизменна, но с 1981г. она кардинально изменилась, о чем можно судить по данным табл. 5.

Таблица 5 - Значимость факторов структуры обрабатывающей промышленности

Ранг фактора	Факторы по годам
1951-1955	1956— 1960	1961 — 1965	1966— 1970	1971 — 1975	1976— 1980	1981 — 1985
1 2 3 4	ФМАШ ФМЕТ ФХИМ ФПОЛ	ФМАШ ФМЕТ ФХИМ ФПОЛ	ФМАШ ФМЕТ ФХИМ ФПОЛ	ФМАШ ФМЕТ ФХИМ ФПОЛ	ФМАШ ФМЕТ ФХИМ ФПОЛ	ФМАШ ФМЕТ ФХИМ ФПОЛ	ФПОЛ ФМЕТ ФХИМ ФМАШ

Необходимо обратить внимание на то, что факторы идентифицированы условно. Перемещение фактора, связанного с машиностроением, с первого места на четвертое не означает многократного снижения роли машиностроения, поскольку машиностроение осталось связанным и с первым по значению фактором, но связь первого, наиболее значимого фактора с полиграфической промышленностью стала существенно выше. Изменения рангов факторов свидетельствуют лишь о появлении принципиальных качественных изменений в структуре отраслей обрабатывающей промышленности.

Результаты выполненного анализа позволяют заключить, что изменения отраслевой структуры хозяйства стран с рыночной экономикой на рубеже 70—80-х годов в значительной степени связаны с изменением структуры обрабатывающей промышленности.

Поскольку изменения в структуре промышленности связаны с переходом ведущей роли от машиностроения к полиграфии, то можно сделать и более глубокие выводы. Учитывая значение машиностроения как инструмента обновления материальной базы хозяйства и роль полиграфии как инструмента распространения информации, можно заключить следующее.

На рубеже 1970—1980 гг. в системе стран с рыночной экономикой действительно началось распространение нового технологического уклада, причем стала происходить более значимая, чем раньше, передача техносфере управленческих функций. Информатизация экономики и общества усилилась.

Полученные данные могут служить ориентиром в обосновании программ формирования отраслевой структуры.

В завершение отметим, что в нашем примере ведущий фактор структуры занятости по отраслям хозяйства на 90% определяет уровень душевого ВВП в стране, регионе. Для характеристики этой связи можно получить адекватные регрессионные модели вида

у = а ехр (- bх₁),

где у — среднегодовая величина душевого ВВП, долларов США (в ценах и по официальному курсу валют 1975г.); х₁ — исходные данные стран, регионов в координатах первого фактора; а и b — параметры, приведенные вместе с оценкой уровня детерминации в табл. 6.

Уровень значимости гипотезы об отсутствии детерминации полученных моделей не превышает 0,01%.

Таблица 6 - Оценки параметров модели среднегодовых величин душевого ВВП

Оценка парамет- ра	Величина оценки по годам
1951—	1956— 1960	1961—	1966—	1971 — 1975	1976-1980	1981-
а, доля b d,%	0,498 88,8	0,478 84,3	1050 0,526 86,7	1220 0,578 87,3	1550 0,556 87,5	1770 0,568 90,1	1825 0,589 90,8