Матрицы ассоциации документов, терминов и их свойства

Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока документов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где li — совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1,...,li,..., ln}, li L для всех i

Универсальный массив L₀ (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:

L₀ = {l1,...,li,..., l n₀ }, li L₀ для всех i, причем | L₀ | = n₀, где n₀, — мощность множества L₀. Линейное представление теоретико-множественного образа документа:

l_k= , где b_ik= 1-если i-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть матрица размерности D х n₀:

Подобные матрицы известны под названием матрицы « термин—документ ». Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: F_i=∑b_ik.

Составим матрицу , где .Матрица имеет размерность . Внедиагональный элемент есть количество появлений i-го и j-го терминов в , диагональный – i-го. Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.

Составим матрицу L₀^T x L0 = (δ_km), δ_km= . Размерность n₀ x n₀, внедиагональные элементы характеризуют степень попарных пересечений сообщений из L₀:

Диагональные элементы задают длины сообщений:

В целом задает распределения пересечений документов и их длин.

18 19 20 21 22 23 24

Подборка статей по вашей теме: