Студопедия


Авиадвигателестроения Административное право Административное право Беларусии Алгебра Архитектура Безопасность жизнедеятельности Введение в профессию «психолог» Введение в экономику культуры Высшая математика Геология Геоморфология Гидрология и гидрометрии Гидросистемы и гидромашины История Украины Культурология Культурология Логика Маркетинг Машиностроение Медицинская психология Менеджмент Металлы и сварка Методы и средства измерений электрических величин Мировая экономика Начертательная геометрия Основы экономической теории Охрана труда Пожарная тактика Процессы и структуры мышления Профессиональная психология Психология Психология менеджмента Современные фундаментальные и прикладные исследования в приборостроении Социальная психология Социально-философская проблематика Социология Статистика Теоретические основы информатики Теория автоматического регулирования Теория вероятности Транспортное право Туроператор Уголовное право Уголовный процесс Управление современным производством Физика Физические явления Философия Холодильные установки Экология Экономика История экономики Основы экономики Экономика предприятия Экономическая история Экономическая теория Экономический анализ Развитие экономики ЕС Чрезвычайные ситуации ВКонтакте Одноклассники Мой Мир Фейсбук LiveJournal Instagram

Взвешивание термов. В векторной модели документы представлены векторами термов [58]




В векторной модели документы представлены векторами термов [58]. Обычно коллекция документов описывается матрицей терм-документ A, где каждая ячейка содержит информацию о появлении терма в документе: A = [aij], где aij – вес слова i в документе j. Столбец j матрицы А представляет документ j. Поскольку каждое из слов обычно встречается лишь в небольшом количестве из общего числа документов, матрица A обычно сильно разрежена. Число строк матрицы (m) равно числу выделенных в словарь термов, оно может быть очень велико. Одной из основных проблем категоризации текстов является большое число измерений векторного пространства.

Запросы, или документы для сравнения обрабатываются методами, похожими на методы обработки исходных документов матрицы.

Запрос представляется m-мерным вектором q=[qi], где qi равно весу i-го терма запроса.

Вектором оценок называется n-мерный вектор

s=qTA,

где j-й элемент вектора s определяется выражением

sj=qTAej,

ej - j-й единичный вектор, показывающий оценку документа j.

Для данного запроса, документы ранжируются в соответствии с оценками, от больших оценок к меньшим.

Существует несколько подходов к определению веса aik терма i для документа j, но большинство из них исходит из двух эмпирических наблюдений, справедливых для текстов:

– чем чаще слово встречается в тексте, тем оно более релевантно по отношению к теме документа;

– чем чаще слово встречается среди всех документов коллекции, тем хуже оно отражает различие между документами.





Дата добавления: 2015-04-01; просмотров: 340; Опубликованный материал нарушает авторские права? | Защита персональных данных | ЗАКАЗАТЬ РАБОТУ


Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Для студентов недели бывают четные, нечетные и зачетные. 9338 - | 7414 - или читать все...

Читайте также:

 

3.228.21.186 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.


Генерация страницы за: 0.002 сек.