Обновление документов

Добавление d векторов документов в ЛСИ - базу данных аналогично добавлению t векторов термов. Пусть D определяет mxd векторов документов, где m - число термов. D добавляется к колонкам оригинальной матрицы Аk, поэтому

B = Аk / D, (14)

где В - матрица размерностью m x (n + d).

Как отмечено выше, приближенное SVD матрицы В, данное как Вk = UB åB VВТ используется для отражения изменений в терм-документном пространстве, происшедших с добавлением документов.

Обновление весов термов

По окончанию обновления всех подлежащих этой процедуре термов, нужно провести коррекцию для отражения изменений в локальных и глобальных частотах встречаемости каждого терма, на который влияли произошедшие изменения.

Если j термов были обновлены и нуждаются в изменении весов, создается матрица Yj размерностью (m + t) x j сконструированная из рядов, содержащих нули или из рядов единичной матрицы j-ого порядка Ij. Дополнительно, матрица Zj размерностью (n+d)xj определяется (по столбцам) для выявления различий между старыми и новыми весами для j термов [5, 15].

Если Ak есть k-ранговая матрица размером (m+t)x(n+d), содержащая обновленные термы и документы, то

B = Ak + Yj ZjT (15)

есть самая точная матрица для представления коррекции весов термов для матрицы Ak. Как показано в [5, 15], приближенное SVD матрицы В определяемое как Вk = UB åB VВТ может использоваться как k–ранговая ЛСИ-модель, отражающая изменения в векторах термов и документов с коррекцией весов термов.

Когда эти три шага выполнены, результирующие термы или вектора термов (ряды) в матрице UB, результирующие документы или вектора документов (ряды) в матрице VВ и сингулярные значения åB отражают изменения в векторном пространстве, происшедшие с добавлением термов или документов.

SVD-обновление может улучшить производительность, так как добавление дополнительных термов и документов могут помочь определить наборы связанных термов и документов или, возможно, разделить несвязные термы и документы.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: