Поиск по поисковому образу документов

Осуществляется в документальных инф-ых поисковых системах (ДИПС). Исторически сложилось поисковый образ - название или первая фраза текста. Все эти системы действуют на оснве инф-ых поисковых языков (ИПЯ). ИПЯ - искусственный язык для выражения содержания документов или запросов с целью последующего поиска. Перевод текста документа на ИПЯ наз-ся индексированием. Искусственный язык разрабатывается на основе естественного исостоит из алфавита, лексики и грамматики. Алфавит - латинские буквы, Cyr, цифры, точки, двоеточие, косая черта. Лексика - совокупность слов. Грамматика - набор правил. Морфология - правила построения изменения слов, синтаксис - правила построения изменения соединения слов. Связи между словами могут быть: парадигматические (существуют независимо от контекста), синтагматические (соотношения слов при соединении и словосочетании). Требования к ИПЯ: 1) располагать лексико-грамматическими ср-вами для точного отображения темы запроса; 2) не содержать синонимов, омонимов; 3) отображать только объективные хар-ки предметов; 4) быть удобным для алгоритмического соотношения: поисковый образÛпоисковое предписание. ИПЯ по способу организаций понятий бывают: 1) классификационные (предкоординируемые); 2) дескрипторные (посткоординируемые). 1): словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. Бывают: а) ИПЯ иерархического типа; б) ИПЯ фоссетного типа; в) алфавитно-предметная классификация. а) - язык, представляющий собой перечислительную классификацию, в которой заранее перечислены все классы и подклассы. Достоинства: простота индексирования и поиска, удобство использования если набор классов с течением времени не меняется. б) - каждый класс строится по определенным правилам при проведении индексирования документов из предварительно заданных классов - фоссетов. Преимущества: допускается многоаспектное индексирование документов. в) - система классов, каждая из которых соответствует определенной теме, причем классы в алфавитном порядке. Нужна для узко предметного поиска. Недостаток: невозможность поиска документов но любому заранее незаданному сочетанию признаков. 2): для создания этого языка: проводятся определенные логические операции над классами заданными ключевыми словами; классы формируются в процессе индексирования; поисковое предписание формируется в виде логических сумм, логических произведений, логических дополнений. Создание языка сводится к созданию информационно-поискового тезауруса (ИПТ). Тезаурус служит для поиска слов, выражающих данное понятие. ИПТ используются:1) для перевода текста с естественного на дескрипторный путем замены ключевых слов соответствующими дескрипторами, исключающими многозначность; 2) для отображения парадигматических связей между дескрипторами. Тезаурусы разрабатываются для отдельных областей: тезаурус по документации, дескрипторный словарь по информатике. Достоинства поиска по поисковому образу: позволяет снизить расходы памяти, сократить время поиска, не требует дорогого аппаратного и программного обеспечения. Недостатки: любой набор ключевых слов не отражает адекватно содержания документа, формирование поискового образа документа состоит в структурировании документа, что искажает его содержание.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: