Мы можем интересоваться не только оценками данного текста по отдельным категориям, но и их взаимосвязями.
Любому тексту t, рассматриваемому как последовательность предложений <s1 … sn>, и категории C может быть сопоставлен булевой вектор b(t, C) = <v1... vn>, где v1 = 1, если для некоторого wС имеет место wsi и vi = 0 в противном случае. На множестве векторов легко определить логические операции. Для двух векторов b(t, Ci) = <v1,...vn> и b(t, Cj) = <u1,... un> они определяются следующим образом:
b(t, Ci) & b(t, Cj) = <min(v1, u1),..., min(vn, un)> — конъюнкция;
b(t, Ci) b(t, Cj) = <max(v1, u1,),..., max(vn, un)> — дизъюнкция;
b(t, Ci) = <l – v1,..., l — vn> — отрицание.
Затем на множестве векторов можно ввести логические отношения совместности, противоречия, подчинения и пр. Очевидно, что таким образом задается некоторая логическая модель предметной области, о которой идет речь в тексте, или же модель когнитивной карты, присущей автору текста. Дальнейшее изучение этих моделей проводится с использованием аппарата классической, многозначной или вероятностной логики высказываний.
|
|
Особый интерес представляет анализ и визуализация отношений между категориями с использованием аппарата многомерного шкалирования, кластерного и факторного анализа.
Определим на множестве категорий (булевых векторов, сопоставленных категориям) функцию близости. Для каждого вектора b(t, Ci) = <v1,..., vn> вычисляется оценка:
, где j = 1, …, n
Тогда коэффициент корреляции для булевых векторов вычисляется следующим образом:
cor(Ci, Cj) = (pi&j – pi*pj) / sqrt(pi * (l—pi) * pj * (l —pj)),
а функцию близости можно определить как:
d(Ci, Cj) = 1 – cor(Ci, Cj)
Также в качестве оценки близости двух категорий часто используется метрика Хемминга, определяемая посредством формулы:
h(Ci, Cj) = pi + pj – 2 * pi&j