Автоматические индексы

Специальные программы-роботы (Spider, Robot или Bot, известные также как «пауки») в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов.

Индекс – это хранилище данных, в котором сосредоточены копии всех посещённых роботами страниц. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

Пользователь в рамках интерфейса, выбранной поисковой системы, формулирует запрос. Далее запрос обрабатывается программой обработки запроса, которая просматривает индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы. В окне браузера отображаются результаты обработки запроса.

В Интернете существует большое число поисковых систем. Как правило, при поиске можно использовать не одну систему, а несколько различных. В этом случае вероятность того, что искомая информация будет найдена, выше, поскольку разные системы используют разные алгоритмы поиска. Ниже приведен список некоторых из них:

http://www.yandex.ru, http://www.list.ru, http://www.google.ru, http://www.rambler.ru, http://www.aport.ru, http://www.metabot.ru, http://www.files.ru, http://www.ra-gu.net.

Успех поиска в таких системах в значительной степени зависит от формулировки запроса. Рассмотрим основные моменты, которые помогут вам правильно сформулировать запрос к поисковой машине:

· Не задавайте только одно слово. Используйте целые фразы, или, по крайней мере, несколько слов;

· Указывайте слова, которые не должны встречаться в искомых документах. Обычно для этого используют либо знак «-», либо ключевое слово NOT;

· Начинайте имена собственные: названия компаний, городов, фамилии людей, и др. с заглавных букв, а все остальные слова пишите только маленькими буквами;

· Если вы хотите найти фразу Цельком - заключите ее в кавычки;

· Если вы вводите запрос к поисковой машине, состоящий из нескольких слов, то в результате получаете список документов, в которых встречается хотя бы одно слово.

Поисковая машина обычно производит сортировку найденных документов по принципу релевантности.

Рассмотрим, что такое релевантность. При индексации документов поисковые машины высчитывают так называемый «вес» слова на странице - соотношение количества повторов на странице заданного Вами слова к общему количеству слов на странице документа. Если Вы задаете запрос, состоящий из нескольких слов, то более релевантными будут документы, в которых совокупный вес слов будет максимальный. Однако, при подсчете веса не учитывается, рядом или раздельно стоят данные слова, и поэтому нет гарантий, что в первых документах содержится максимальное количество повторений словосочетания. Вполне возможно, что такого словосочетания там вообще не будет.

Поэтому, если Вы хотите найти заданное словосочетание - задавайте запрос в окне поисковой машины в кавычках. В этом случае будет высчитываться вес словосочетания Цельком. Соответственно, гарантируется наличие именно данного словосочетания в найденных документах.

 

В заключение рассмотрим основные этапы поиска информации в сети Интернет.

Этап Содержание работ этапа
1. Определение предмета поиска На этом этапе определяем, что конкретно нас интересует.
2. Составление списка ключевых слов На этом этапе выявляем, как может называться то, что нас интересует.
3. Выбор информационного пространства На этом этапе определяем, где может находиться то, что нас интересует.
4. Определение инструмента для поиска На этом этапе принимаем решение о том, как проще и быстрее найти то, что нас интересует.
5. Предварительный поиск Пробуем найти.
6. Анализ полученной информации Смотрим на полученные результаты. Если это необходимо (в том случае, когда полученные результаты нас не устраивают), проводим корректировку всех предыдущих действий.
7. Дополнительный поиск Ищем дальше, пока не получаем ответ на свой вопрос.

Общие советы

· Потратьте несколько лишних минут, чтобы максимально «сузить» описание предмета поиска - это поможет сэкономить Вам много времени и денег;

· Искать что-то конкретное лучше всего с помощью поисковых машин, так как если вы знаете «хорошие» ключевые слова, четко определяющие то, что вы хотите найти, то и поиск не представляет никакого труда;

· Используйте для поиска нескольких поисковых машин;

· Если на просматриваемой Вами странице существует несколько заинтересовавших Вас ссылок - открывайте несколько окон, пока Вы читаете информацию на одной странице, остальные успешно (или не очень) успевают загрузиться;

· Если вы хотите найти популярные, часто посещаемые ресурсы - ищите с помощью рейтинга;

· Если нужна очень редкая информация - попробуйте найти ресурсы, посвященные более общей теме. Возможно, там будут размещены ссылки на необходимые Вам ресурсы или будут опубликованы требующиеся материалы;

· Старайтесь найти ответ, а не задать вопрос;

· Создавайте свою коллекцию интересующих Вас ссылок;

· Если Вы нашли что-то интересное, сразу запишите адрес ресурса в «Избранное» либо в текстовый файл;

· Записывая адреса ресурсов в «Избранное», старайтесь дать им более четкое название, максимально соответствующее содержащейся в них информации, постарайтесь не использовать слишком длинные названия;

· Разработайте свой собственный классификатор и для каждой темы создавайте отдельную папку в «Избранном». Поверьте, поиск в своих собственных не разобранных архивах занимает не меньше времени, чем поиск в Internet.

Задание № 1.

& Познакомьтесь с презентацией «Образовательные интернет-ресурсы». Просмотрите интернет-ресурсы и определите перечень тех, которые могут быть полезны для Вашего проекта.

Задание № 2.

! Поместите найденные страницы в список избранных.

Для этого

1. загрузите страницу в браузере;

2. в меню Избранное выберите пункт Добавить в избранное…

3. задайте имя ссылки в появившемся окне или оставьте то, которое предлагается по умолчанию.

4. проверьте сохранённую ссылку. Откройте новое окно браузера. В меню Избранное найдите созданную ссылку и щелкните по ней, чтобы перейти на указанную страницу.

Рисунок 2. Переход на избранную страницу.

Задание № 3.

!Найдите дополнительную информацию, полезную в работе над проектом. Для поиска воспользуйтесь предметными каталогами или поисковыми системами.

1. Запустите браузер и загрузите в нем сайт одной из поисковых систем, например, http://www.yandex.ru.

2. В строке запроса введите ключевые слова для поиска и нажмите кнопку Найти.

3. Просмотрите список найденных ссылок и выберите те, которые могут быть полезны для Вашего проекта (щёлкните по выбранной ссылке и просмотрите ее содержание).

4. Сохраните страницы в списке избранных.

На основе поисковых двигателей нового поколения можно строить свои собственные индивидуальные или коллективные поисковые машины. Поиск можно адаптировать к определенной тематике и к определенному сообществу. Пример организации социального поиска - персональная или групповая поисковая машина от Google находится по адресу http://www.google.com/coop/cse/  

Создание собственного поисковика в Google CSE начинается с определения списка сайтов, которые пользователь считает объективными и актуальными источниками информации в различных сферах деятельности. К работе по изменению созданной поисковой системы можно подключить других пользователей, которые могут стать соавторами и настраивать ее свойства коллективно. Домашняя страница созданной поисковой машины, помимо строки поиска, будет включать профиль создателя и список заданных сайтов.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: