double arrow

Архитектура поисковой системы

2

Строение поисковой системы

Особенности поисковых систем

Особенности поисковых систем. В работе поисковый процесс представлен четырьмя стадиями:

-формулировка (происходит до начала поиска);

-действие (начинающийся поиск);

-обзор результатов (результат, который пользователь видит после поиска); и –

-усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности).

Более удобная нелинейная схема поиска информации состоит из следующих этапов:

- фиксация информационной потребности на естественном языке;

- выбор нужных поисковых сервисов сети и точная формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);

- выполнение созданных запросов;

- предварительная обработка и выборка полученных списков ссылок на документы;

- обращение по выбранным адресам за искомыми документами;

- предварительный просмотр содержимого найденных документов;

- сохранение релевантных документов для последующего изучения;

- извлечение из релевантных документов ссылок для расширения запроса;




- изучение всего массива сохраненных документов;

- если информационная потребность не полностью удовлетворена, то возврат к первому этапу.

Рассмотрим классическую архитектуру, которая чаще всего реализована на корпоративных сайтах и информационных порталах. Такая архитектура изображена на рисунке 3.1

Рисунок 3.1 Архитектура поисковой системы

Разберем по частям то, что изображено на рисунке. Существует клиентская вычислительная машина под управлением ОС Windows и существует Web-сервер под управлением UNIX-подобной ОС. На стороне клиента запущен типичный браузер, такой как Netscape. На стороне сервера запущен web сервер, который обслуживает запросы от браузера, передавая запросы презентационному слою понимающему CGI. Презентационный слой передает запросы к поисковому механизму в случае вызова услуги поиска или отображает наполнение (content) сайта. При работе администратора презентационный слой также может передавать запросы на инициализацию механизма индексации нового контента, который еще не индексирован. Это необходимо по той причине, что пока текст не индексирован, поиск в нем с помощью поисковой машины невозможен.

Идея заключается в следующем. Существуют мегабайты текстовой информации, и скорость поиска документов содержащих заданные ключевые слова отнимает очень многопроцессорного времени. Предположим, в 10 мегабайтах текстовой информации ключевое слово будет находиться в течение 10 секунд. И вот заходит посетитель на Ваш сайт, задает ключевые слова, вызывает услугу поиска и ждет 10 секунд, пока ваш сервер не выдаст ему результат. Предположим, случилось так, что одновременно запросило поиск 5 человек. Естественно, время ответа увеличится в 5 раз. Получается, что в среднем по 50 секунд пользователь будет ждать ответа от вашего сервера. Это не приемлемо, особенно если у Вас сотни мегабайт текстовой информации и время реакции системы будет катастрофически велико. Необходимо использовать другой подход при поиске ключевых слов в текстовой информации - время ответа сократить до миллисекунд.



2




Сейчас читают про: