Обновление информации

Одним из подходов для добавления термов и документов в векторное пространство был реализован в [5].

Как уже говорилось, для добавления термов и документов в сгенерированной ЛСИ базы данных используются три процесса: вложение, пересчет SVD и SVD-обновление.

Процесс вложения состоит в добавлении термов и документов в существующее векторное пространство. Чтобы «вложить» новый mx1 вектор документа d, элементы которого были нужным образом взвешены, d проецируется на совокупность существующих векторов термов (то есть на столбцы матрицы Uk). Пусть dp представляет документную проекцию вектора d, тогда

dр = dT Uk åk-1 . (11)

Соответственно, для того, чтобы вложить вектор терма t размерностью 1xn, элементы которого определяют документы, ассоциированные с термом, t проецируется на совокупность ранее существующих векторов документов (то есть на столбцы матрицы Vk). Пусть tp представляет термовую проекцию вектора t, тогда

tр = tT Vk åk-1 . (12)

Вложение не меняет представления существовавших ранее документов и термов в терм-документном пространстве, поэтому любое влияние дополнительных термов и документов не определяется.

Так как вложение не влияет на семантическую структуру базы данных, пересчет SVD всегда является альтернативой для обновления. Однако это может требовать больших затрат памяти и машинного времени.

Чтобы избежать таких затрат и иметь возможность увидеть эффект от добавления новых термов и документов в существующую модель векторного пространства, приемлемой альтернативой является SVD-обновление, описанное в [5, 15, 20, 26]. Этот процесс состоит из трех этапов: обновление термов, обновление документов, обновление весов термов.

Обновление термов

Чтобы добавить t термов в существующую ЛСИ - базу данных, пусть Т определяет t х n векторов термов, где n - число документов в коллекции. Т добавляется к рядам k-ранговой матрицы Аk. Пусть

В = Аk / Т, (13)

где В есть матрица (m+ t) х n. Как показано в [5, 26], приближенное SVD матрицы В используется для получения новых векторов термов UВ, новых векторов документов VB и новых сингулярных значений åВ для задач масштабирования. Вk = UB åB VВТ есть k-ранговая модель, отражающая изменения в семантической структуре базы данных и терм-документного пространства, происшедших от добавления термов.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: