Принципы поиска информации в Internet

Считается, что на сегодняшний день в Internet присутствует более миллиарда страниц, и каждый день прибавляется еще около миллиона. Вполне очевидно, что поиск в таком обилии источников необходимой информации представляет собой непростую задачу. Для ее решения существуют средства двух принципиально различных типов: поисковые машины и каталоги.

Поисковая система обычно состоит из трех компонентов:

- паука (Spiders) – автоматической программы, которая непрерывно перемещаясь по сети собирает информацию о каждой странице;

- базы данных, в которой хранится вся информация, полученная пауками;

- интерфейса поисковой системы с механизмом поиска по базе данных.

Наиболее распространенными поисковыми системами являются: Yandex (www.yandex.ru), Yahoo (www.yahoo.ru), Rambler (www.rambler.ru). Важно отметить, что ни одна из существующих поисковых машин не охватила все документы сети. Наиболее близко к решению этой задачи подошла поисковая система Google (www.google.com).

Работа пользователя с поисковой системой сводится к составлению запроса, построенного на ключевых словах, и просмотра найденных ссылок.

Каталоги составляются редакторами, которые просматривают страницы, описывают их и помещают в соответствующие теме разделы. Поэтому поиск по каталогам осуществляется быстрее и точнее. Их недостатком является охват сравнительно небольшого числа страниц. Так, в самом большом каталоге Open Directory Project (www.dmoz.org) проиндексировано около двух миллионов страниц.

Существуют гибридные поисковые сайты, объединяющие в себе как каталог, так и поисковую машину. Например, AltaVista (www.altavista.com).

В ряде случаев (когда обычные поисковые системы не дают результатов) полезными могут оказаться метапоисковые системы. Например, Metacrawler (www.metacrawler.com) и DOGPILE (www.dogpile.com). Они не имеют своей базы, а посылают запрос ко многим поисковым машинам и полученные ответы сортируют, удаляют повторы и предоставляют пользователю.

При поиске в Internet очень важным моментом является соответствие ответа вопросу. Оно базируется на двух составляющих — полноте (ничего не потеряно) и точности (не найдено ничего лишнего). Не последнее место отводится скорости поиска. Эффективность поиска во многом определяется грамотным планированием поисковой процедуры и умением работать с выбранным ресурсом. План поисковых работ включает выбор поисковых сервисов и инструментов, последовательность их использования в зависимости от предыдущего результата.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: