Иерархический метод — последовательное объединение группируемых объектов — от самых близких до самых удалённых. Результаты такой классификации изображают в виде дендрограммы.
K-средних — построение заданного числа кластеров, которые должны максимально отличаться друг от друга.
Отличия иерархического метода от метода k-средних:
· k-средних основан на гипотезе о наиболее вероятном количестве классов;
· k-средних позволяет получить центры всех классов и другие параметры дескриптивной статистики.
Сложность, неоднородность систем исторического анализа проявляется в том, что объекты, принадлежащие к одному типу, в разной мере обладают присущими ему свойствами.
Нечёткое множество — класс объектов, в котором нет резкой разницы между теми объектами, которые входят в этот класс, и теми, которые в него не входят. Принадлежность объекта к классу описывается с помощью описывается с помощью степени принадлежности - от 0 до 1.
Ядро — наибольшая выраженность свойств типа. В свою очередь, ядро нечёткого — это набор объектов, для каждого из которых степень принадлежности к множеству превышает некоторое пороговое значение.
|
|
Периферия — наименьшая выраженность свойств типа.
Билет 11.
Факторный анализ обеспечивает сжатие информации, объясняя множество признаков через небольшое количество факторов. При этом предполагается, что всё многообразие и структура взаимосвязей обусловлены некими скрытыми причинами.
За сложными взаимосвязями измеренных признаков стоит структура, отражающая наиболее существенные черты изучаемой системы, а измеренные признаки являются конкретными проявлениями скрытых общих факторов, определяющих эту структуру.
Факторная нагрузка — коэффициент взаимосвязи между признаком и общим фактором, выражающий меру влияния фактора на признак. Величина не превышает единицы по модулю, а знак говорит о положительной или отрицательной связи признака с фактором. Если ноль — фактор не влияет.
Факторный вес — значение фактора у отдельного объекта. То есть, как сильно фактор проявляется у признака. Значение факторных весов может быть как отрицательным, так и положительным.
Факторная модель даёт возможность вычислять вклады факторов в общую дисперсию всеъ признаков. Процесс последовательного нахождения факторов прекращается, если их суммарный вклад превысит определённый заданный порог. Если число найденных главных факторов не больше, чем m/2, дисперсия не менее 70%, а следующий фактор даёт вклад не более 5%, факторная модель считается достаточно хорошей.
|
|
Билет 12.
Качественные признаки делятся на два типа:
1) ранговые. Порядок по типу «больше-меньше»;
2) номинальные. Буквальное совпадение.
Таблица сопряжённости.
Наиболее популярным из методов изучения взаимосвязей номинальных признаков является построение таблицы сопряжённости.
Таблица сопряжённости — прямоугольная таблица, по строкам которой указываются категории одного признака, по столбцам — категории другого. Каждый объект совокупности попадает в какую-либо из клеток таблицы в соответствии с тем, к какой категории он относится по каждому из двух признаков.
В таблице стоят числа, представляющие собой частоты совместной встречаемости категорий двух признаков (например, число людей, принадлежащих к конкретной социальной группе и при этом входящих в определенную партию). В зависимости от характера распределения этих частот внутри таблицы можно судить о том, существует ли связь между признаками.
Хи-квадрат — сумма квадратов разностей реальных и ожидаемых частот. Это понятие вводится при проверке гипотезы о независимости признаков, которая базируется на сравнении таблицы реальных частот с таблицей ожидаемых частот (т. е. Частот, соответствующих гипотезе, что два изучаемых признака независимы). Чем больше суммарное расхождение между двумя этими гипотезами, тем гипотеза кажется менее вероятной.