Обновление весов термов

Финальная фаза даундэйтинга, названная «обновление весов термов» применима после даундэйтинга документа. Если терм удален из набора документов, на веса глобальные и локальные остальных термов это не влияет. Когда удаляется документ, глобальный вес термов изменится. Частоты встречаемости по всему набору текстов будут меняться и, в связи с этим, обновление весов термов, связанных с термами в удаленных документах, необходимо. Чтобы обновить веса этих термов, может быть применена техника обновления термов, описанная в разделе «обновление». Матрица Yj размерностью (m - t) x j в этом случае точно определяет, какие термы были затронуты, а матрица Zj размерностью (n - d) x j отражает результат вычитания старых весов из новых весов затронутых преобразованиями термов. Далее вычисляется округленное (k-ранговое) СВД матрицы B = Ak + Yj ZjT из выражения (19), где Ak есть k-ранговая матрица размером (m - t) x (n - d). Так как сингулярные вектора, хранимые в Uk и VkT и соответствующие сингулярные значения åk отражающие все изменения, доступны, то можно посчитать СВД матрицы R = UkT åk Vk. Приближение СВД(R) может быть получено из СВД матрицы `R = åk + UkT Yj ZjT Vk = UB åB VВТ. Если ранг матрицы В тот же, что и у матрицы Ak, то результирующие ортогональные матрицы UB и VВ будут размерностью (m - t) x k и (n - t) x k соответственно.

После применения процедуры обновления весов термов финальные Uk, åk и Vk где Uk = UВ, Vk = VВ и åk = åВ отражают новую модель Ak с удаленными термами и/или документами.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: