Поиск информационных ресурсов в Интернете

Поиск в файлах.

Файлы распространяются в виде коробочных программных продуктов (диск с руководством, лицензия). Они бывают: условно-бесплатные – программные продукты (ПО) - продукты поставляемые с ознакомительными целями, через какое-то время они выключаются, бесплатное ПО (вместе с Windows бесплатно поставляется Internet Explorer). Передача файлов осуществляется с помощью FTP-протоколов (File Transfer Protocol).

Наиболее мощными поисковыми машинами, на сегодняшний день в мире являются:

Google (google.com),

Bing (bing.com)

Alta Vista (www.altavista.digital.com),

Yahoo! (www.yahoo.com),

I nfoseek (www.infoseek.com),

Baidu (baidu.com)

GoTo (www.goto.com),

FTP search (ftpsearch.ntnu.no - поиск в системе FTP),

а также отечественные:

Yandex (yandex.ru),

Ramble r (www.rambler.ru),

Compass (compass.tsu.ru),

Russian FTP search (ftpsearch.city.ru - поиск в системе FTP).

Популярность приобретают метапоисковые (мультипоисковые) машины, которые переадресовывают запрос на поисковые машины, а за тем суммируют полученное и удаляют дублируемые записи. Например, Metabot.ru, nigma.ru

Функционирование поисковой машины включает два процесса:

1) индексирование ресурсов Internet (автоматическое построение и обновление индекса);

2) поиск по индексу информации, соответствующей запросу пользователя.

Поисковая машинаэто программа, которая составляет и хранит предметный указатель Интернета (индекс) и находит в нем заданные ключевые слова, а затем адреса сайтов.

Основной действующий элемент машины – это робот-паук (программный агент) систематически посещающий сайты, считывающий адреса сайтов, которые необходимо индексировать.

За тем создается индекс.

Специфика индекса заключается в том, что в нем по алфавиту хранятся только основы слов содержащих ссылки на номера web-страниц, где они присутствуют.

Индексная запись имеет следующую структуру:

Основа (номер страницы, номер страницы, …, номер страницы).

Основа это ключевое слово специально обработанное (без окончания).

Если в обычном тексте мы идем от страницы к словам, то поисковая машина и дет от слов к страницам.

Поэтому индекс поисковой машины называется инвертированным (перевернутым).

Поисковая программа в соответствии с запросом пользователя перебирает индексы и выдает результаты, содержащие текстовую копию страниц Интернета.

Поисковые машины могут просмотреть не более трети всех сайтов в Интернете (по другим данным не более 10%).

Существует еще невидимый и закрытый Интернет.

Роботы, являясь программными агентами, отвечают за извлечение документов из сети. Все поисковые агенты делятся на

- неспециализированные и

- специализированные.

Неспециализированные агенты обеспечивают поиск по ключевым словам и устойчивым словосочетаниям.

Такие системы агентов объединяют ссылки на сайты, найденные множеством машин поиска. Используя агентов такого класса можно уменьшить число результирующих документов.

Специализированные агенты приспособлены искать сайты по видам (новости, музыка, акции, книги, видеоклипы и т.д.).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: