Также, как и даундэйтинг терма, даундэйтинг документа ведет к удалению документа (ряда) из существующих векторов документов в Vk. Вследствие этого редуцированная матрица Аk представляется как
Аk = [z `Аk] = Uk åk VkT , (24)
где z - первая колонка в матрице Аk должна быть обновлена удалением. Так как каждый столбец можно переместить так, чтобы он стал первым в матрице, описанная процедура может применяться для даундэйтинга любого документа. Также, как и для даундэйтинга термов, определим ε1 как столбец размером n x 1, заполненный нулями, кроме первого элемента, значение которого равно 1 и определим как ортогональную матрицу размерностью n x (k + 1) в виде
= [Vk | s], (25)
где вектор s размерностью n x 1 ортогонален Vk (то есть VТk s = 0). Тогда
(26)
Первый ряд правой части выражения (30) обозначим как W. Он составлен из первого ряда Vk и первого элемента из s за ним. Заметим, что матрица WТ имеет тот же вид, что и матрица Н для даундэйтинга термов. Используя вытесняющую ненулевые значения схему, основанную на преобразовании Гивенса, которая описана выше, получим:
|
|
(27)
где `В – верхняя двух-диагональная матрица размерностью k x k. Доказано, что сингулярные значения матрицы `В те же, что и в матрице Аk из выражения (28). Если Gl и Gr являются ортогональными матрицами размерностью (k + 1) х (k + 1), сконструированных с помощью преобразования Гивенса так, что
и далее получим:
. (28)
Также, как и в выражении (13), второй ряд выражения (21) есть обновленный удалением Аk, данная как
(29)
`В в этом случае, однако, нижняя бидиагональная матрица. Применение метода диагонализации Голуб-Кахана к `ВТ дает следующее:
Gl`ВТ Gr = Gr`ВТ GlT = UBT `В VB = åk (30)
где сингулярные значения `В являются диагональными элементами åВ. Комбинируя выражение 22 и 23 получим:
(31)
где