Матрицы ассоциации документов, терминов и их свойства

Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока доку­ментов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где li совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1,...,li,..., ln}, li L для всех i

Уни­версальный массив L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библио­теки), подмножеством которого являются все документы:

L0 = {l1,...,li,..., l n0 }, li L0 для всех i, причем | L0 | = n0, где n0, — мощность множества L0. Линейное представление теоретико-множественного образа документа:

lk= , где bik= 1-если i-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть мат­рица размерности D х n0:

Подобные матрицы известны под названием матрицы « тер­мин—документ ». Каждый столбец матрицы соответствует доку­менту и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и являет­ся перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik.

Составим матрицу , где .Матрица имеет размерность . Внедиагональный элемент есть количество появлений i-го и j-го терминов в , диагональный – i-го. Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.

Составим матрицу L0T x L0 = (δkm), δkm= . Размерность n0 x n0, внедиагональные элементы характеризуют степень попарных пересечений сообщений из L0:

Диагональные элементы задают длины сообщений:

В целом задает распределения пересечений документов и их длин.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: