Назначение метода:
1) изучение взаимосвязи одной переменной («зависимой», результирующей) от нескольких других («независимых», исходных);
2) выявление среди «независимых» переменных наиболее существенных, важных для предсказания «зависимой», а также тех, которыми можно пренебречь, исключить в дальнейшем их из анализа.
Обычно множественный регрессионный анализ (МРА) применяется для изучения возможности предсказания некоторого результата (обучения, деятельности) по ряду предварительно измеренных характеристик. При этом предполагается, что связь между значениями метрической «зависимой» переменной Y и несколькими «независимыми» переменными X, измеренных у множества объектов (испытуемых), можно выразить линейным уравнением:
Y = b + b1x1 + b2x2 + … + bрxр + e,
где Y — зависимая переменная; x1, x2, …. xр — независимые переменные; b, b1, b2, … bр — параметры модели; e — ошибка предсказания.
Требования к исходным данным:
1) Строгих указаний о соотношении количества испытуемых N и количества признаков m нет, но в некоторых источниках рекомендуется следующее соотношение N>m в 3 раза.
2) Признаки должны быть измерены по количественным шкалам (интервальной или пропорциональной) и иметь нормальное распределение.
3) Для анализа отбираются независимые переменные сильно коррелирующие с зависимой и слабо — друг с другом.
Дискриминантный анализ («классификация с обучением») предсказывает принадлежность объектов (испытуемых) к одному из известных классов (шкала наименований) по измеренным метрическим (дискриминантным) переменным. Дискриминантные переменные должны быть измерены в количественной шкале, зависимая переменная — в шкале наименований. Рекомендуется двукратное превышение числа испытуемых над числом переменных.
Требования к исходным данным:
1) В отношении количества признаков m строгих ограничений нет, но часто рекомендуется следующее соотношение количества испытуемых N и количества признаков m: N>m в 2 раза.
2) Признаки должны быть измерены по количественным шкалам (интервальной или пропорциональной) и иметь нормальное распределение.
3) Между переменными должны отсутствовать линейные зависимости (коэффициенты корреляции, близкие к 1,00).
Кластерный анализ («классификация без обучения») по измеренным характеристикам у множества объектов (испытуемых) либо по данным об их попарном сходстве (различии) разбивает это множество объектов на группы, в каждой из которых находятся объекты, более похожие друг на друга, чем на объекты других групп.
Требования к исходным данным: Ограничений в использовании нет. Может применяться даже для признаков, измеренных по шкале наименований, лишь бы между ними возможно было определить сходство/различие.
Многомерное шкалирование выявляет шкалы как критерии, по которым поляризуются объекты при их субъективном попарном сравнении.
Факторный анализ направлен на выявление структуры переменных как совокупности факторов, каждый из которых — это скрытая, обобщающая причина взаимосвязи группы переменных. Надежные результаты получаются, если переменные измерены в количественной шкале. Число испытуемых должно превышать число переменных (или, по крайней мере, должно быть равно ему).
Требования к исходным данным:
1) Признаки должны быть измерены по количественным шкалам (интервальной или пропорциональной) и иметь нормальное распределение. Включение в анализ порядковых или бинарных данных допустимо, но исследователь должен отдавать себе отчет в том, что искажения факторной структуры будут соответствовать искажениям коэффициентов корреляций и характер искажений неизвестен. В общем случае — желательно перейти к единой шкале для всех признаков (либо ранговой, либо бинарной), затем вычислять матрицу интеркорреляций, выбирая соответствующие меры взаимосвязи.
2) Соотношение количества признаков m и количества испытуемых N зависит от целей исследования.
А) Если цель анализа — уменьшение исходного количества переменных путем перехода к новым переменным-факторам, то строгих ограничений нет. Желательно лишь, чтобы N было не меньше m.
Б) Если исследователь хочет обнаружить и обосновать наличие факторов за взаимосвязями признаков, то N должно быть больше m не менее чем в 3 раза.
В) Если исследователь хочет обосновать существование выявленной факторной структуры для генеральной совокупности, то испытуемых N должно быть еще больше.
3) Недопустимы функциональные зависимости между признаками и не желательны корреляции, близкие к 1,00.
Возникновение и развитие факторного анализа тесно связано с измерениями в психологии. Длительное время факторный анализ и воспринимался как математическая модель в психологической теории интеллекта. Лишь начиная с 50-х годов XX столетия, одновременно с разработкой математического обоснования факторного анализа, этот метод становится общенаучным. К настоящему времени факторный анализ является неотъемлемой частью любой серьезной статистической компьютерной программы и входит в основной инструментарий всех наук, имеющих дело с многопараметрическим описанием изучаемых объектов, таких, как социология, экономика, биология, медицина и другие.
Основная идея факторного анализа была сформулирована еще Ф. Гальтоном, основоположником измерений индивидуальных различий. Она сводится к тому, что если несколько признаков, измеренных на группе индивидов, изменяются согласованно, то можно предположить существование одной общей причины этой совместной изменчивости — фактора как скрытой (латентной), непосредственно не доступной измерению переменной. При этом фактор является скрытой причиной согласованной изменчивости наблюдаемых переменных
Далее К. Пирсон в 1901 году выдвигает идею «метода главных осей», а Ч. Спирмен, отстаивая свою однофакторную концепцию интеллекта, разрабатывает математический аппарат для оценки этого фактора, исходя из множества измерений способностей. В своей работе, опубликованной в 1904 году, Ч. Спирмен показал, что если ряд признаков попарно коррелируют друг с другом, то может быть составлена система линейных уравнений, связывающих все эти признаки, один общий фактор «общей одаренности» и по одному специфическому фактору «специальных способностей» для каждой переменной. В 1930-х годах Л. Терстоун впервые предлагает «многофакторный анализ» для описания многочисленных измеренных способностей меньшим числом общих факторов интеллекта, являющихся линейной комбинацией этих исходных способностей.
С 1950-х годов, с появлением компьютеров, факторный анализ начинает очень широко использоваться в психологии при разработке тестов, обоснования структурных теорий интеллекта и личности. При этом исследователь начинает с множества измеренных эмпирических показателей, которые при помощи факторного анализа группируются по факторам (изучаемым свойствам). Факторы получают интерпретацию по входящим в них переменным, затем отбираются наиболее «весомые» показатели этих факторов, отсеиваются малозначимые переменные, вычисляются значения факторов для испытуемых и сопоставляются с внешними эмпирическими показателями изучаемых свойств.
В дальнейшем, по мере развития математического обеспечения факторного анализа, накопления опыта его использования, прежде всего в психологии, задача факторного анализа обобщается. Как общенаучный метод, факторный анализ становится средством для замены набора коррелирующих измерений существенно меньшим числом новых переменных (факторов). При этом основными требованиями являются: а) минимальная потеря информации, содержащейся в исходных данных, и б) возможность представления (интерпретации) факторов через исходные переменные.
Таким образом, главная цель факторного анализа — уменьшение размерности исходных данных с целью их экономного описания при условии минимальных потерь исходной информации. Результатом факторного анализа является переход от множества исходных переменных к существенно меньшему числу новых переменных — факторов. Фактор при этом интерпретируется как причина совместной изменчивости нескольких исходных переменных.
Если исходить из предположения о том, что корреляции могут быть объяснены влиянием скрытых причин — факторов, то основное назначение факторного анализа — анализ корреляций множества признаков.
Рассмотрим результаты факторного анализа на простом примере. Предположим, исследователь измерил на выборке из 50 испытуемых 5 показателей интеллекта: счет в уме, продолжение числовых рядов, осведомленность, словарный запас, установление сходства. Все показатели статистически значимо взаимосвязаны на уровне р < 0,05, кроме показателя № 4 с № 1 и 2 (табл. 37).
Таблица 37