Студопедия


Авиадвигателестроения Административное право Административное право Беларусии Алгебра Архитектура Безопасность жизнедеятельности Введение в профессию «психолог» Введение в экономику культуры Высшая математика Геология Геоморфология Гидрология и гидрометрии Гидросистемы и гидромашины История Украины Культурология Культурология Логика Маркетинг Машиностроение Медицинская психология Менеджмент Металлы и сварка Методы и средства измерений электрических величин Мировая экономика Начертательная геометрия Основы экономической теории Охрана труда Пожарная тактика Процессы и структуры мышления Профессиональная психология Психология Психология менеджмента Современные фундаментальные и прикладные исследования в приборостроении Социальная психология Социально-философская проблематика Социология Статистика Теоретические основы информатики Теория автоматического регулирования Теория вероятности Транспортное право Туроператор Уголовное право Уголовный процесс Управление современным производством Физика Физические явления Философия Холодильные установки Экология Экономика История экономики Основы экономики Экономика предприятия Экономическая история Экономическая теория Экономический анализ Развитие экономики ЕС Чрезвычайные ситуации ВКонтакте Одноклассники Мой Мир Фейсбук LiveJournal Instagram

Взвешивание термов




Теперь вспомним, что А = m x n и, соответственно, состоит из элементов:

A = [aij], (5)

где aij определяют частоту появления терма i в документе j.

если каждое слово не появляется в каждом документе, матрица а становится более «разреженной». на практике локальные и глобальные веса используются для повышения/понижения важности терма в документе или среди документов. можно записать:

aij = l(i;j)xg(i), (6)

Где l(i; j) – локальный вес для терма i в документе j, а g(i) – глобальный вес терма i. Локальный вес терма используется для того, чтобы увеличить или уменьшить значимость терма i в документе j, а глобальная весовая функция нужна для увеличения или уменьшения веса терма i внутри всей коллекции документов.

Существует множество различных методик взвешивания термов, причем результаты анализа зависят от правильного выбора метода весьма сильно (см. Гл.2).

После того, как схема взвешивания была применена к каждому элементу aij матрицы А, она факторизуется в произведение трех матриц U, V, å используя SVD. svd наследует модель скрытой семантической структуры от матриц U и V, содержащих левые и правые сингулярные вектора из матрицы а, а также от å – диагональной матрицы сингулярных значений из А.

Эти матрицы есть разбиение оригинальных отношений в линейно-независимые вектора или факторные значения.

В общем случае матрица а получается достаточно большой размерности, поэтому используется так называемая аппроксимация svd, когда из числа всех столбцов трех матриц оставляются только первые k столбцов, несущих большую и наиболее важную часть информации о структуре матрицы, и соответственно, о латентной структуре словоупотребления в документах. Иными словами, это k-ранговая аппроксимация матрицы А .

A ≈ Ak ≡ Uk åk VkT (7)

Нужно заметить, что приближение весьма точно, так как в матрице å величины следуют в порядке уменьшения, а следовательно и в порядке уменьшения их значимости для конечного результата см [4]. Таким образом, можно сказать, что АK– лучшая аппроксимация А.

Аппроксимация SVD отражает структуру связных документов (важные ее части) и убирает шум использования слов – синонимию, которая так портит результаты синтаксических методов. Понятно, что уменьшение шума связано с уменьшением размерности матрицы. Значения, меньшие некоей пороговой величины отбрасываются как мало влияющие на результат.

Интуитивно, с тех позиций, что k – (число измерений) намного меньше m (числа уникальных термов) - минимальные расхождения в терминологии будут игнорироваться.

Термы, которые будут появляться в схожих документов, к примеру, будут близки в k -мерном пространстве, даже если они не будут встречаться вместе в одних документах.

Другими словами SVD может быть рассмотрена как техника наследования наборов некоррелирующих индексирующих переменных или факторных значений, где каждый терм и документ представляется как вектор в k -пространстве, используя элементы левых или правых сингулярных векторов.





Дата добавления: 2015-04-01; просмотров: 346; Опубликованный материал нарушает авторские права? | Защита персональных данных | ЗАКАЗАТЬ РАБОТУ


Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: На стипендию можно купить что-нибудь, но не больше... 8936 - | 7219 - или читать все...

Читайте также:

 

3.85.214.0 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.


Генерация страницы за: 0.002 сек.