Даундэйтинг документов

Также, как и даундэйтинг терма, даундэйтинг документа ведет к удалению документа (ряда) из существующих векторов документов в Vk. Вследствие этого редуцированная матрица Аk представляется как

Аk = [z `Аk] = Uk åk VkT , (24)

где z - первая колонка в матрице Аk должна быть обновлена удалением. Так как каждый столбец можно переместить так, чтобы он стал первым в матрице, описанная процедура может применяться для даундэйтинга любого документа. Также, как и для даундэйтинга термов, определим ε1 как столбец размером n x 1, заполненный нулями, кроме первого элемента, значение которого равно 1 и определим как ортогональную матрицу размерностью n x (k + 1) в виде

= [Vk | s], (25)

где вектор s размерностью n x 1 ортогонален Vk (то есть VТk s = 0). Тогда

 
 


(26)

Первый ряд правой части выражения (30) обозначим как W. Он составлен из первого ряда Vk и первого элемента из s за ним. Заметим, что матрица WТ имеет тот же вид, что и матрица Н для даундэйтинга термов. Используя вытесняющую ненулевые значения схему, основанную на преобразовании Гивенса, которая описана выше, получим:

 
 


(27)

где `В – верхняя двух-диагональная матрица размерностью k x k. Доказано, что сингулярные значения матрицы `В те же, что и в матрице Аk из выражения (28). Если Gl и Gr являются ортогональными матрицами размерностью (k + 1) х (k + 1), сконструированных с помощью преобразования Гивенса так, что

 
 


и далее получим:

 
 


. (28)

Также, как и в выражении (13), второй ряд выражения (21) есть обновленный удалением Аk, данная как

(29)

`В в этом случае, однако, нижняя бидиагональная матрица. Применение метода диагонализации Голуб-Кахана к `ВТ дает следующее:

GlТ Gr = GrТ GlT = UBT `В VB = åk (30)

где сингулярные значения `В являются диагональными элементами åВ. Комбинируя выражение 22 и 23 получим:

 
 


(31)

где


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: