Даундэйтинг термов

Удалить терм – значит исключить терм из базы данных, или, в случае ЛСИ, удаление ряда из матрицы, ассоциированного с удаляемым термом из существующего вектора термов в Uk. Как было сказано, k-наибольшие сингулярные значения åk и соответствующие сингулярные вектора (столбцы в матрицах Uk и Vk) используются для создания матрицы уменьшенного ранга Ak , которая может быть записана как

 
 


, (16)

где zT - первый ряд из Ak , требующий удаления. Определим ε1 как вектор-столбец размерностью m x 1, состоящий из всех нулей, кроме первого элемента, чье значение равно 1, и определим ортогональную матрицу Û размерностью m x (k + 1) заданную как

Û = [Uk | s ],

где s – вектор размерности mx1, ортогональный к Uk.

То есть UТk s = 0.

Тогда

 
 


(17)

Первый столбец матрицы, расположенной справа в выражении 21, обозначим за Н. Он, в сущности, представляет собой первый ряд матрицы Uk, и следующий за ним первый элемент s. Матрицы вращения Gl и Gr Гивенса (левая и правая) могут быть построены так:

 
 


, (18)

где – верхняя бидиагональная матрица размерностью k x k. Используя последние два ненулевых значения в первом столбце матрицы Н, вращение Гивенса может быть определено так, что левое умножение на ортогональную матрицу эффективно обнуляет последние ненулевые вхождения в первом столбце. Вращение Гивенса устанавливает только один поворот, который определяет серии вращений, аккумулированных в ортогональной Gl матрице размерностью (k + 1) х (k + 1).

Левое умножение на вращение Гивенса, конечно, может ввести ненулевой элемент над наддиагональю модифицированной матрицы Н. Такие вхождения могут быть обнулены соответственным вращением Гивенса, примененным к правой стороне матрицы Н (или к ее столбцам).

Правое умножение матрицы Н на данное вращение Гивенса (аккумулированное в ортогональной Gl матрице размерностью (k + 1) х (k + 1)), в свою очередь, может вызвать появление ненулевых элементов ниже диагонали матрицы Н, и для удаления этого требуется левое умножение на другое вращение Гивенса.

Такая последовательность левых и правых умножений на вращение Гивенса продолжается пока все ненулевые элементы, появляющиеся ниже диагонали или выше наддиагонали в Н, вытесняются из правого нижнего угла матрицы Н для создания результирующей двух-диагональной матрицы [8]. Используя выражение (22), можно показать, что сингулярные значения матрицы размером k x k такие же, что и у матрицы Ak из формулы (20). Если же ортогональные матрицы Gl и Gr размером (k + 1) x (k + 1) определены как

 
 


то из этого следует:

 
 


. (19)

Следовательно, второй ряд в выражении (23) наследует обновленную удалением бидиагональную форму матрицы `Аk , то есть

. (20)

Бидиагональная матрица `В размером k x k может быть диагонализирована [10]. Эта процедура выдаст на выходе диагональную матрицу, составленную из сингулярных значений, эквивалентных сингулярным значениям из `В и из обновленной удалением матрицы Ak из выражения (24). Здесь же,

(21)

где UB и VB ортогональные матрицы размером k x k, созданные с помощью преобразования Гивенса. Из выражений (24) и (25) следует:

, (22)

что терм, данный как z в выражении (20), был обновлен удалением и новая модель ЛСИ можно записать как:

(23)

где

Любой ряд матрицы Ak из выражения (20) может быть обновлен удалением используя вышеописанный процесс. Выбранный ряд может быть передвинут на место первого для унификации с представлением матрицы Ak из выражения (20). Для даундэйтинга более чем одного ряда, процесс применяется итеративно. Результирующие матрицы `Аk, `Uk, `Vk, и `∑k отражают изменения в семантической модели, используемой ЛСИ.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: