Стратегия поиска информации в сети

Один из первых вопросов, поставленных в начале п. 10.1, состоял в следующем: как разыскать в Сети необходимую информацию в усло­виях, когда ее поток непрерывно и до определенной степени бескон­трольно возрастает. Наиболее убедительной попыткой обуздать ин­формационный хаос в Интернет является культивирование поиско­вых машин самого широкого профиля. В их функции входит автома­тическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структуриро­ванных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функцио­нальной цепочки обобщенной поисковой машины, таким образом, следующий:

Сканирование → индексирование → классификация → обслуживание.

Сканирование. В процессе сканирования ресурсов Сети при­нимают участие специальные программы, в WWW их часто называют «паучками». Работа таких программ обычно происходит в автомати­ческом режиме и состоит в последовательном обходе узлов Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их геогра­фической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристи­кой машины является число уже отсканированных узлов и скорость работы сканирующих программ.

Индексирование предполагаетформирование базы данных поисковой машины, организованной по определенным принципам. В первую очередь, безусловно, предметом сканирования являются тек­стовые документы. В результате такой операции для каждого документа формируется набор ключевых слов, по которым затем на ста­дии обслуживания поискового запроса пользователю выдаются адре­са заиндексированных ресурсов. Информационные объекты нетекстового характера (графика, ви­део, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных.

Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информа­ционного объекта к определенному типу.

Обслуживание пользователя той или иной поисковой маши­ной строится на разработке информационно–поискового языка, есте­ственным образом связанного со структурой базы данных. Типичны­ми являются два основных подхода: пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом шаге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой, либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка. Конечной точкой обо­их путей является локализация и извлечение соответствующего ин­формационного объекта.

В процессе сканирования поисковой машине приходится полу­чать доступ к ресурсам Сети, естественно, что такой доступ реализуется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые машины по области сканирова­ния, прежде всего это – гипертекстовые базы данных Web, ресурсы всемирного пространства GopherSpace, FTP–архивы.

В мире Интернет технологии WWW произвели революцию, след­ствием которой стали следующие факторы:

· неуклонное нарастание числа серверов в Сети, реализующих http–протокол;

· перенесение наиболее востребуемых ресурсов на Web–узлы с сер­веров, поддерживающих другие протоколы доступа;

· разработка системы межпротокольных шлюзов WWW–Gopher, WWW–FTP, WWW–Telnet.

По этой причине поиск информации в Интернет сегодня подни­мается на уровень технологии.

Тем не менее, система информационно–поисковых машин Сети на данный момент является достаточно развитой, чтобы говорить об информационной самодостаточности Интернет. Последнее означает, что с высокой вероятностью, профессионально подготовленный пользователь, располагающий полным арсеналом поисковых средств и пониманием логики размещения и именования различных инфор­мационных объектов Сети, в состоянии обнаружить заданный ресурс, если тот существует реально, за конечное число итераций поискового процесса.

Несмотря на стремительное нарастание присутствия в Сети средств мультимедиа, на сегодняшний день основным носителем ин­формации в ней остается текстовый документ. Как правило, наиболее эффективным средством поиска является поиск по запросу пользова­теля, по крайней мере, в случае, когда доступ к информации заданно­го типа происходит впервые и место ее нахождения не представляет­ся очевидным.

Но и в этом случае остается серьезная проблема: спи­сок документов, полученных в результате отклика на пользователь­ский запрос, сводящийся, например, к указанию единственного клю­чевого слова для поиска совпадений с ним в пространстве WWW–страниц, может содержать в себе тысячи пунктов. Даже в этой ситуа­ции результат может иметь практическое значение, если отображае­мый список представляет документы в порядке убывания их предпо­лагаемой значимости для пользователя. Такое упорядочивание спи­ска, или ранжирование документов по релевантности (реальной при­годности), не является тривиальным и реализуется каждой поисковой машиной в рамках своего алгоритма.

Так, в процессе ранжирования Wеb–документов из списка отклика на заданный поисковый запрос кажется естественным учесть не толь­ко частоту, с которой термин встречается на странице, но и область текста (аннотация, заголовок и т.д.), где он был употреблен, посколь­ку очевидно, что та степень, в которой термин соответствует основ­ному смысловому содержанию документа, зависит от места его упот­ребления. К счастью, благодаря тому, что для разметки текста в WWW используется язык НТМL, обладающий средствами особого выделения, например заголовков разного уровня на странице, оказывается достаточно просто реализовать алгоритмсканирования Web–страницы с учетом разного веса различных текстовых полей. Более того, многие поисковые машины WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.

Подводя итог сказанному, сегодня можно говорить о развитии информационно–поисковых систем в двух направлениях:

1) возрастание чувствительности поисковых программ к полям сканируемого документа, что фактически приводит к их внедрению в технологию WWW и подразумевает активное использование операторов языка НТМL для идентификации значимых для поиска полей документа;

2) развитие возможностей сужения поиска путем усложнения за­проса (применение логических операторов, операторов близости и т. д. для наложения связей на элементы запроса – ниже будут подробно обсуждены).

На сегодня в Интернет доступно значительное число поисковых машин, среди которых такие, как Infoseeк, Lycos, WebCrawler, Ехсitе, Yаhоо, Ореn Техt Indех, Аlta Vistа и др.

Несмотря на впечатляющие рекламные заявления создателей этих систем как в отношении числа индексируемых документов, содер­жащихся в их базах данных, так и в отношении изощренности алго­ритмов поиска и ранжирования, только их практическое использова­ние для нужд конкретного пользователя может дать ответ на вопрос, какая из поисковых машин и в какой степени адекватна возлагаемым на нее задачам. Рассмотрим более подробно те из них, которые рас­полагают наибольшим числом заиндексированных ресурсов Сети, а также нетривиальным языком поискового запроса.

Поисковая машина Аlta Vista. Это наиболее полная реализация поисковых возможностей Интернет. Некоммерческая поисковая маши­на свободного доступа Alta Vista (AV) (htpp://altavistci.digital.сот) под­держивается в Сети корпорацией Digital Equipment Corporation, Этой поисковой машине на сегодня принадлежит абсолютная пальма первенства по числу заиндексированных ресурсов Wеb. Кроме того, благодаря наличию межпротокольных шлюзов машина располагает адресами ресурсов, доступных по протоколам, отличным от НТТР. Высокая скорость сканирования Паутины АV позволяет предполо­жить, что в ближайшие полтора–два года ее индексная база данных будет покрывать подавляющее количество открытых для свободного доступа узлов WWW. Индекс поисковой машины обновляется ежедневно с помощью специальной программы Sсооtег, причем частота посещения отдельного узла Сети зависит от частоты изменения ин­формации на нем. На текущий момент АV дает доступ к 30 миллио­нам WWW–страниц, расположенных на более чем 275 600 серверах и к 4 миллионам статей из 16 000 телеконференций Usenet news.

При отсутствии какой–либо дополнительной информации система индексирует все слова документа, за исключением комментариев, и использует несколько первых слов документа в качестве краткой ан­нотации.

В процессе поиска А1tа Vista реализует алгоритм ранжирования, согласно которому каждому документу, содержащему совпадение по заданному термину, присваивается ранг, определяющий порядковый номер документа в списке результатов поиска. Ранг приписывался на основе частоты употребления термина в документе, области доку­мента, где он встретился, а также близости терминов друг к другу при комбинированном поиске.

АV позволяет организовать поиск в Сети, предоставляя поиско­вые шаблоны для выполнения простого и расширенного запросов.

Поисковая машина Ореn Техt Index. Каждый раз сталкиваясь в Сети с новой поисковой машиной, разумно попытаться оценить ее возможности. Для новоиспеченного пользователя Интернет опреде­ленную трудность представляет тот факт, что домашняя страница по­исковой машины, на которую он попадает, впервые узнав ее URL, обычно содержит в себе шаблон простого поиска в виде единичного бокса, который, как известно, предоставляет минимальный набор возможностей. Для выяснения особенностей информационно–поискового языка системы разумно обратиться к шаблону расширен­ного поиска, ссылка на который, если он существует, из домашней страницы может скрываться за едва заметным гипертекстовым указа­телем типа Advanced Search, Power Search, Options или другими.

Освоение интерфейса поисковой машины Аltа Vista является пре­красным фундаментом для работы с другими поисковыми системами.

Поисковая машина Ореn Техt Index (ОТI) (http://indeх.ореntехt.nеt) представляет собой мощную поисковую систему Сети, позво­ляющую находить информацию на основе построения запроса в виде слова или фразы для поиска в WWW–пространстве. После введений слова, группы слов или фразы произвольной длины в специальный поисковый шаблон показывается список страниц, текст которых включает в себя термины, заданные для поиска, и позволяет перейти непосредственно к просмотру документов.

Последовательность представления WWW–страниц в списке, содержащем результат поис­ка, определяется рангом каждого документа, обусловленным часто­той употребления заданного термина в тексте и областью документа, где этот термин был употреблен, т.е. на основе достаточно общих принципов.

Каталоги и поисковая машина Yаhoo. Yаhоо (http://www.уаhоо.соm) является достаточно мощной поисковой машиной Сети с ор­ганизацией доступа к информации не только по поисковому запросу, но и путем непосредственной навигации по тематически организованному в рамках Yаhоо иерархическому каталогу. Кроме того, Yаhоо реализует ряд дополнительных возможностей для поиска.

Русские поисковые машины. На долю русскоязычных пользо­вателей Интернет выпало суровое испытание – использование не­скольких различных кодировок для кириллицы, среди которых коi8–r, Windows ср1251, МS–DOS х–ср866,IS0–8859–х и Маc, ориентирован­ных при создании на определенные операционные системы. Это вле­чет за собой ряд неприятных моментов, в лучшем случае таких, как постоянное использование дополнительных операций перекодировки текста в рабочей области браузера, в худшем – просто невозмож­ность получить загруженную страницу в читабельном виде. Nеtscaре Nаvigator 4.0 поддерживает три вида кодировок (коi8–к. Windows ср1251 и ISO–8859–5), предоставляя возможность выбрать любую из них через меню. Microsoft Internet Explorer работал до последнего времени в коди­ровке Windows, и лишь недавно начал понимать и другие.

Все упомянутые выше трудности автоматически приводят к ос­ложнениям при сканировании русскоязычной части Web пространства поисковыми машинами, однако и здесь существует оп­ределенный прогресс.

Другой немаловажный аспект, зачастую сводящий на нет эффек­тивность поиска документов, набранных в кириллице, по ключевым словам состоит в том, что морфология русского языка (прежде всего многообразие падежных форм) не дает правильного числа совпаде­ний с терминами в документе, если грамматическая форма термина в поисковом запросе и в документе отличаются. В этом смысле несо­мненный интерес представляет разработка поисковых систем, учиты­вающих морфологию русского языка, таких, как программные продукты на основе ядра Яndех компании Соmр Теk International. Яndех включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализа­тор документов, языки разметки, конверторы форматов и др. Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, т.е. находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базо­вом словаре. Система индексирования позволяет создавать компакт­ный индекс и быстро осуществлять поиск с применением логических операторов.

Поисковая система Yandeх (Яndех) (htpp://vww.yandex.ru) компании Соmр Тек International реализована на базе данных сервера Издательского дома «Открытые Системы» (htpp://win.\vww.osp.гu), причем поисковый язык является достаточно развитым.

В последнее время растет популярность достаточно мощной и быстрой поисковой машины Rambler (htpp://www.rambler.ru), поддержи­ваемой в Сети компанией Stak Ltd. (г.Пущинo), которая предостав­ляет возможность поиска как в Wеb, так и в системе телеконферен­ций при распознавании всех кодировок кириллицы и с применением обычных логических коннекторов.

Особенности URL ресурсов Интернет, полезные при поиске. В процессе поиска информации в Сети важную роль играет понимание логики именования информационных объектов. Поиск по терминам, входящим в URL ресурса, который, как мы могли убедиться, поддер­живают многие поисковые машины, в ряде случаев оказывается бо­лее эффективным. Так, корпорации, как правило, включают в URL своих серверов название компании, прописывая его целиком, напри­мер сервер Microsoft – www.microsoft.com – и использование этого факта может существенно облегчить поиск. Если, например, искать материалы по работе с операционной системой Unix, то в отклике может быть получено огромное число документов, поскольку сам термин широко встречается в текстовых документах Сети и далеко не только в тех, где присутствует его описание. Для получения реле­вантного отклика целесообразно использовать запрос с элементом url:unix и скомбинировать его со словом «man». Первое говорит о том, что в название директории размещения файла или самого файла, если его главной темой является unix, с большой вероятностью вхо­дит и сам этот термин. Слово же «man» хорошо известно пользовате­лям Unix как ключ к получению справки по системным командам.

Попытка отыскать электронный литературный текст в Сети како­го–либо автора также может потерпеть неудачу, если не знать, что тексты такого рода в Интернет размещаются обычно в каталогах с именем url:etext, поэтому применение элемента url:etext быстро приво­дит к цели.

Использование крайне редких слов, применяемых в тех или иных отраслях деятельности, вместо более распространенных синонимов, также помогает существенно сузить область поиска и быстро полу­чить документы специального назначения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: