Как работает поисковой индекс?

Поисковые каталоги

Поисковые каталоги служат для тематического поиска.

Информация на этих серверах структурирована по темам и подтемам. Имея намерение осветить какую-то узкую тему, нетрудно найти список веб- страниц, ей посвященных.

Каталог ресурсов в Интернете или каталог интернет-ресурсов или про- сто интернет-каталог — структурированный набор ссылок на сайты с кратким их описанием.

Каталог в котором ссылки на сайты внутри категорий сортируются по популярности сайтов называется рейтинг (или топ).



Поисковые индексы

Поисковые индексы работают как алфавитные указатели. Клиент зада- ет  слово или группу слов, характеризующих его область поиска, — и получает список ссылок на веб-страницы, содержащие указанные термины. Первой поисковой системой для Всемирной паутины был «Wandex»,

уже не существующий индекс,  разработанный  Мэтью  Грэйем из Массачусетского технологического института в 1993.

Как работает поисковой индекс?

Поисковые индексы автоматически, при помощи специальных про- грамм (веб-пауков), сканируют страницы Интернета и индексируют их, то есть заносят в свою огромную базу данных.

Поисковый робот («веб-паук») — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой системы, которой принадлежит и отправляется по ссылкам на следующие страницы.

В ответ на запрос, где найти нужную информацию, поисковый сервер возвращает список гиперссылок, ведущих веб-страницам, на которых нужная информация имеется или упоминается. Обширность списка может быть лю- бой, в зависимости от содержания запроса.

 

 

Поисковая система Yandex

Yandex является пожалуй наилучшей поисковой системой в россий- ском Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов документов, которые система просматривает в течение несколь- ких секунд. На примере этой системы покажем как осуществляется поиск информации.

Поиск информации задается введением ключевого слова в специаль- ную рамку и нажатием кнопки «Найти», справа от рамки (рис. 1).

 

Рисунок 1 – Строка поиска Yandex


Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале списка. При этом ранг найденного документа определяется тем, в ка- ком месте документа находится ключевое слово (в заглавии документа важ- нее, чем в любом другом месте) и числом упоминаний ключевого слова (чем больше упоминаний, тем ранг выше) (рис. 2).

Рисунок 2 – результаты поиска по запросу

 

Таким образом, сайты, расположенные на первых местах в списке, яв- ляются ведущими не с содержательной точки зрения, а практически, по от- ношению к частоте упоминания ключевого слова. В связи с этим, не следует ограничиваться просмотром первого десятка предложенных поисковой си- стемой сайтов.

Содержательную часть сайта можно косвенно оценить по краткому его описанию, размещаемому поисковой системой под адресом сайта. Некоторые недобросовестные авторы сайтов, для того, чтобы повысить вероятность по- явления своей веб-страницы на первых местах поисковой системы, умыш- ленно включают в документ бессмысленные повторы ключевого слова. Но как только поисковая система обнаруживает такой «замусоренный» доку- мент, она автоматически исключает его из своей базы данных.


Даже ранжированный список документов, предлагаемый поисковой си- стемой в ответ на ключевую фразу или слово, может оказаться практически необозримым. В связи с этим в Yandex (как и других мощных Поисковых Системах) предоставлена возможность в рамках первого списка, выбрать до- кументы, которые точнее отражают цель поиска, то есть уточнить или улуч- шить результаты поиска. Для этого можно воспользоваться флажком в найденном, который расположен под строкой поиска (см. рис. 2). Данным параметром можно пользоваться не один раз, с каждым разом вводя в строку поиска уточняющие ключевые слова (рис. 3).

Рисунок 3 – улучшение результатов поиска с помощью флажка в найденном

Поиск по рубрикатору поисковой системы

Поисковые каталоги представляют собой систематизированную кол- лекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организо- ваны в виде тематического рубрикатора, представляющего собой иерархиче- скую структуру, перемещаясь по которой, можно найти нужную информа- цию.

Приведем в качестве примера структуру поискового интернет-каталога Yandex.


В верхней строке меню, которая расположена над строкой поиска в пункте ещѐ (рис. 4) необходимо выбрать команду Каталог. В результате ок- но браузера примет следующий вид (рис. 5).

 

Рисунок 4 – Выбор Интернет-каталога Yandex

 

 

Рисунок 5 – внешний вид каталога Yandex

Это каталог общего назначения, так как в нем представлены ссылки на ресурсы Интернета практически по всем возможным направлениям: Развле- чения, СМИ, Отдых, Дом, Культура, Учеба и т.д.

Каждая тема включает множество подразделов, а они, в свою очередь, содержат рубрики и т. д.


Предположим, вы готовите мероприятие ко Дню победы и хотите найти в Интернете слова известной военной песни Булата Окуджавы «Вы слышите, грохочут сапоги». Поиск можно организовать следующим образом:

Yandex > Каталог > Культура > Музыка > Авторская песня

Такой способ поиска является достаточно быстрым и эффективным. В конце вам предлагается достаточно ограниченное число ссылок, среди кото- рых есть ссылки на сайты с песнями известных бардов. Остается только найти на сайте архив с текстами песен Б. Окуджавы и выбрать в нем нужный текст. Для ускорения поиска вы можете воспользоваться строкой поиска и флажком только в этой рубрике (рис. 6).

Рисунок 6 – Поиск по каталогу

 









Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: