Поиск информации в internet

Internet представляет собой огромное хранилище распределенной информации различных форматов и видов:

• Web-страницы;

• онлайновые электронные библиотеки;

• виртуальные музеи;

• каталоги по продуктам и услугам;

• открытая правительственная информация;

• научно-исследовательские публикации;

• документы различных сервисов Internet: Gopher,FTP, и др.;

• коммерческая и финансовая информация.

Одна из основных проблем пользователя Internet —это эффективный поиск информации. Очевидно, что актуальность этой проблемы будет возрастать, так как объем документальной информации в Internet возрастает экспоненциально.

Основным инструментом поиска в Internet являются поисковые системы, которых в настоящее время насчитывается около 200. Существующие поисковые системы Internet можно классифицировать по нескольким критериям.

Объем поискового индекса

Поисковые системы периодически просматривают узлы Internet и формируют постоянно обновляемые индексы документов. Из-за экспоненциального расширенрш Всемирной сети исчерпывающее индексирование всего содержимого Web и создание одного огромного индекса практически невозможно. В настоящее время даже лучшие поисковые системы индексируют не более трети всего содержимого сети Internet.

2 Метод выбора серверов для просмотра (опроса)

Генерация поискового индекса требует систематического обхода Web-узлов и определения местонахождения каждого из документов. Структура Web аналогична структуре ориентированного графа, поэтому здесь может использоваться любой из алгоритмов обхода графа.

Используемые поисковые технологии.

По этому критерию поисковые системы можно разбить на 4 категории.

Тематические каталоги. Технология предусматривает обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически – это индексирование на основе классификации. Индексирование может проводиться либо автоматически, либо вручную с помощью специалистов, которые просматривают популярные Web-узлы и составляют краткое описание документов резюме (ключевые слова, аннотация, реферат).

Специализированные каталоги или справочники. В этом случае каталоги создаются по отдельным отраслям и темам. Например, каталог по новостям, каталог по городам, каталог по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска). Технология реализуется индексными средствами поиска. При этом автоматически индексируются содержание всех текстов, расположенных на опрашиваемых серверах.

Средства мета поиска. В данной технологии запрос одновременно осуществляется несколькими поисковыми системами, а результат поиска объединяется в общий, упорядоченный по степени релевантности список. Поскольку каждая система обрабатывает только часть узлов сети, это позволяет значительно расширить базу поиска. К этому классу можно также отнести так называемые «персональные программы поиска»,которые позволяют формировать свои собственные инструменты мета поиска (например, автоматически опрашивать часто посещаемые узлы).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: