Связи категорий

Мы можем интересоваться не только оценками данного тек­ста по отдельным категориям, но и их взаимосвязями.

Любому тексту t, рассматриваемому как последовательность предложений <s1 … sn>, и категории C может быть сопоставлен булевой вектор b(t, C) = <v1... vn>, где v1 = 1, если для некоторого wС имеет место wsi и vi = 0 в противном случае. На множе­стве векторов легко определить логические операции. Для двух векторов b(t, Ci) = <v1,...vn> и b(t, Cj) = <u1,... un> они определяют­ся следующим образом:

b(t, Ci) & b(t, Cj) = <min(v1, u1),..., min(vn, un)> — конъюнкция;

b(t, Ci) b(t, Cj) = <max(v1, u1,),..., max(vn, un)> — дизъюнкция;

b(t, Ci) = <l – v1,..., l — vn> — отрицание.

Затем на множестве векторов можно ввести логические от­ношения совместности, противоречия, подчинения и пр. Оче­видно, что таким образом задается некоторая логическая мо­дель предметной области, о которой идет речь в тексте, или же модель когнитивной карты, присущей автору текста. Дальней­шее изучение этих моделей проводится с использованием ап­парата классической, многозначной или вероятностной логики высказываний.

Особый интерес представляет анализ и визуализация отно­шений между категориями с использованием аппарата много­мерного шкалирования, кластерного и факторного анализа.

Определим на множестве категорий (булевых векторов, со­поставленных категориям) функцию близости. Для каждого вектора b(t, Ci) = <v1,..., vn> вычисляется оценка:

, где j = 1, …, n

Тогда коэффициент корреляции для булевых векторов вы­числяется следующим образом:

cor(Ci, Cj) = (pi&j – pi*pj) / sqrt(pi * (l—pi) * pj * (l —pj)),

а функцию близости можно определить как:

d(Ci, Cj) = 1 – cor(Ci, Cj)

Также в качестве оценки близости двух категорий часто ис­пользуется метрика Хемминга, определяемая посредством фор­мулы:

h(Ci, Cj) = pi + pj – 2 * pi&j


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: