Обновление удалением (downdating)

Для уменьшения словесного шума воспользуемся транслитерацией. Даундэйтинг представляет собой удаление термов и/или документов из векторного пространства.

Здесь также можно выделить три метода его проведения: вычленение (folding-out), пересчет SVD и даундэйтинг модели уменьшенной мерности (downdating the Reduced Model или DRM).

Вычленение в данном контексте означает игнорирование термов или документов в векторном пространстве и игнорирование соответствующих рядов в матрицах Uk и Vk. Во время сопоставления запроса те термы и документы, которые «вычленены», просто не используются в сравнениях. Вычленение не имеет информации о способе, каким удаляемый терм или документ может влиять на терм-документные связи, кластеризацию или смысл в коллекции.

Как было указано выше, пересчет SVD ставит перед исследователем те же трудности, что и при его обновлении. Так как пересчет повлечет за собой явные перемены в векторной модели пространства, он требует затрат памяти и машинного времени. Метод DRM моделирует эффект от удаления терма или документа из векторного пространстве используя k-ранговую модель Ak, а не оригинальную матрицу А. Модели для даундэйтинга SVD описаны в [7], [8] и [19]. Метод, представленный в [7], базируется на алгоритмах, уменьшающих задачу даундэйтинга до задачи собственных значений матрицы с простой структурой, решения которой могут быть определены из корней секулярного уравнения. Эта процедура является обратным стабильным алгоритмом, разработанным Парком и Ван Хаффелем для вычисления SVD от (ε1, А) где ε1 – добавленная рабочая колонка [9]. Алгоритмы процедур описаны в [20].

DRM состоит из трех шагов: удаление термов, удаление документов и обновление весов термов. Первые два шага применяются для семантического удаления как терма, так и документа, в то время как третий шаг следует за удалением документа. Изменения в глобальных весах векторов термов, ассоциированных с термами необходимы при удалении любого документа.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: