Сбор страниц

Поисковый робот — это программа, осуществляющая автоматическое сканирование Web-ресурсов на предмет появления новых, модификации существующих и удаления старых Web ресурсов. Процесс сбора страниц роботы начинают с определенного количества отправных URL и продолжают его, следуя по ссылкам с этих документов. Отправные URL-адреса либо подаются людьми, претендующими на регистрацию в поисковой системе, либо формируются из доменных имен, перечисленных в соответствующем реестре.

Индексирование страниц

На данном этапе роботы просматривают различные компоненты страницы с целью определить ее назначение. Анализируется заголовок страницы (тег <TITLE>), содержимое служебных тегов <META> (с помощью которых автор страницы может самостоятельно определить для нее набор ключевых слов), заголовки разделов документа, комментарии к рисункам (атрибут alt тега <IMG>) и собственно текст документа.

Не всякое содержимое страницы имеет значение для поисковой системы. Например, существуют стоп-слова — это те слова, которые система игнорирует, поскольку они считаются слишком распространенными, чтобы нести информацию о назначении страницы (например, артикль the в английском языке).

Когда страница проанализирована на предмет наличия всевозможных ключевых слов, она получает определенный рейтинг в сравнении с другими страницами, содержащими те же ключевые слова. Затем поисковый образ страницы, содержащий ее URL и рейтинг ключевых слов, сохраняется в базе данных поисковой системы.

Почти любая поисковая система учитывает при составлении рейтинга число входящих ссылок. Чем больше других сайтов ссылаются на данную страницу, тем больше будет ее рейтинг.

3. Обеспечение механизма поиска

Поисковая страница представляет собой интерфейс, с помощью которого пользователь формулирует запросы, и обычно содержит поле для ввода поискового запроса, а также другие поисковые поля, предназначенные для опытных пользователей, желающих уточнить запрос.

Различают три типа поисковых запросов:

1. перечень ключевых слов;

2. перечень ключевых слов, связанных различными логическими операциями (объединение, исключение, последовательность и т.д.);

3. вопрос на естественном языке.

Современные поисковые системы, как правило, поддерживают запросы первого и второго типа. Естественный язык в качестве языка запросов пока не получил широкого распространения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: