Стратегия поиска информации в сети

Один из первых вопросов, поставленных в начале п. 10.1, состоял в следующем: как разыскать в Сети необходимую информацию в условиях, когда ее поток непрерывно и до определенной степени бесконтрольно возрастает. Наиболее убедительной попыткой обуздать информационный хаос в Интернет является культивирование поисковых машин самого широкого профиля. В их функции входит автоматическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структурированных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функциональной цепочки обобщенной поисковой машины, таким образом, следующий:

Сканирование → индексирование → классификация → обслуживание.

Сканирование. В процессе сканирования ресурсов Сети принимают участие специальные программы, в WWW их часто называют «паучками». Работа таких программ обычно происходит в автоматическом режиме и состоит в последовательном обходе узлов Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристикой машины является число уже отсканированных узлов и скорость работы сканирующих программ.

Индексирование предполагаетформирование базы данных поисковой машины, организованной по определенным принципам. В первую очередь, безусловно, предметом сканирования являются текстовые документы. В результате такой операции для каждого документа формируется набор ключевых слов, по которым затем на стадии обслуживания поискового запроса пользователю выдаются адреса заиндексированных ресурсов. Информационные объекты нетекстового характера (графика, видео, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных.

Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информационного объекта к определенному типу.

Обслуживание пользователя той или иной поисковой машиной строится на разработке информационно–поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода: пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом шаге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой, либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка. Конечной точкой обоих путей является локализация и извлечение соответствующего информационного объекта.

В процессе сканирования поисковой машине приходится получать доступ к ресурсам Сети, естественно, что такой доступ реализуется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые машины по области сканирования, прежде всего это – гипертекстовые базы данных Web, ресурсы всемирного пространства GopherSpace, FTP–архивы.

В мире Интернет технологии WWW произвели революцию, следствием которой стали следующие факторы:

· неуклонное нарастание числа серверов в Сети, реализующих http–протокол;

· перенесение наиболее востребуемых ресурсов на Web–узлы с серверов, поддерживающих другие протоколы доступа;

· разработка системы межпротокольных шлюзов WWW–Gopher, WWW–FTP, WWW–Telnet.

По этой причине поиск информации в Интернет сегодня поднимается на уровень технологии.

Тем не менее, система информационно–поисковых машин Сети на данный момент является достаточно развитой, чтобы говорить об информационной самодостаточности Интернет. Последнее означает, что с высокой вероятностью, профессионально подготовленный пользователь, располагающий полным арсеналом поисковых средств и пониманием логики размещения и именования различных информационных объектов Сети, в состоянии обнаружить заданный ресурс, если тот существует реально, за конечное число итераций поискового процесса.

Несмотря на стремительное нарастание присутствия в Сети средств мультимедиа, на сегодняшний день основным носителем информации в ней остается текстовый документ. Как правило, наиболее эффективным средством поиска является поиск по запросу пользователя, по крайней мере, в случае, когда доступ к информации заданного типа происходит впервые и место ее нахождения не представляется очевидным.

Но и в этом случае остается серьезная проблема: список документов, полученных в результате отклика на пользовательский запрос, сводящийся, например, к указанию единственного ключевого слова для поиска совпадений с ним в пространстве WWW–страниц, может содержать в себе тысячи пунктов. Даже в этой ситуации результат может иметь практическое значение, если отображаемый список представляет документы в порядке убывания их предполагаемой значимости для пользователя. Такое упорядочивание списка, или ранжирование документов по релевантности (реальной пригодности), не является тривиальным и реализуется каждой поисковой машиной в рамках своего алгоритма.

Так, в процессе ранжирования Wеb–документов из списка отклика на заданный поисковый запрос кажется естественным учесть не только частоту, с которой термин встречается на странице, но и область текста (аннотация, заголовок и т.д.), где он был употреблен, поскольку очевидно, что та степень, в которой термин соответствует основному смысловому содержанию документа, зависит от места его употребления. К счастью, благодаря тому, что для разметки текста в WWW используется язык НТМL, обладающий средствами особого выделения, например заголовков разного уровня на странице, оказывается достаточно просто реализовать алгоритмсканирования Web–страницы с учетом разного веса различных текстовых полей. Более того, многие поисковые машины WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.

Подводя итог сказанному, сегодня можно говорить о развитии информационно–поисковых систем в двух направлениях:

1) возрастание чувствительности поисковых программ к полям сканируемого документа, что фактически приводит к их внедрению в технологию WWW и подразумевает активное использование операторов языка НТМL для идентификации значимых для поиска полей документа;

2) развитие возможностей сужения поиска путем усложнения запроса (применение логических операторов, операторов близости и т. д. для наложения связей на элементы запроса – ниже будут подробно обсуждены).

На сегодня в Интернет доступно значительное число поисковых машин, среди которых такие, как Infoseeк, Lycos, WebCrawler, Ехсitе, Yаhоо, Ореn Техt Indех, Аlta Vistа и др.

Несмотря на впечатляющие рекламные заявления создателей этих систем как в отношении числа индексируемых документов, содержащихся в их базах данных, так и в отношении изощренности алгоритмов поиска и ранжирования, только их практическое использование для нужд конкретного пользователя может дать ответ на вопрос, какая из поисковых машин и в какой степени адекватна возлагаемым на нее задачам. Рассмотрим более подробно те из них, которые располагают наибольшим числом заиндексированных ресурсов Сети, а также нетривиальным языком поискового запроса.

Поисковая машина Аlta Vista. Это наиболее полная реализация поисковых возможностей Интернет. Некоммерческая поисковая машина свободного доступа Alta Vista (AV) (htpp://altavistci.digital.сот) поддерживается в Сети корпорацией Digital Equipment Corporation, Этой поисковой машине на сегодня принадлежит абсолютная пальма первенства по числу заиндексированных ресурсов Wеb. Кроме того, благодаря наличию межпротокольных шлюзов машина располагает адресами ресурсов, доступных по протоколам, отличным от НТТР. Высокая скорость сканирования Паутины АV позволяет предположить, что в ближайшие полтора–два года ее индексная база данных будет покрывать подавляющее количество открытых для свободного доступа узлов WWW. Индекс поисковой машины обновляется ежедневно с помощью специальной программы Sсооtег, причем частота посещения отдельного узла Сети зависит от частоты изменения информации на нем. На текущий момент АV дает доступ к 30 миллионам WWW–страниц, расположенных на более чем 275 600 серверах и к 4 миллионам статей из 16 000 телеконференций Usenet news.

При отсутствии какой–либо дополнительной информации система индексирует все слова документа, за исключением комментариев, и использует несколько первых слов документа в качестве краткой аннотации.

В процессе поиска А1tа Vista реализует алгоритм ранжирования, согласно которому каждому документу, содержащему совпадение по заданному термину, присваивается ранг, определяющий порядковый номер документа в списке результатов поиска. Ранг приписывался на основе частоты употребления термина в документе, области документа, где он встретился, а также близости терминов друг к другу при комбинированном поиске.

АV позволяет организовать поиск в Сети, предоставляя поисковые шаблоны для выполнения простого и расширенного запросов.

Поисковая машина Ореn Техt Index. Каждый раз сталкиваясь в Сети с новой поисковой машиной, разумно попытаться оценить ее возможности. Для новоиспеченного пользователя Интернет определенную трудность представляет тот факт, что домашняя страница поисковой машины, на которую он попадает, впервые узнав ее URL, обычно содержит в себе шаблон простого поиска в виде единичного бокса, который, как известно, предоставляет минимальный набор возможностей. Для выяснения особенностей информационно–поискового языка системы разумно обратиться к шаблону расширенного поиска, ссылка на который, если он существует, из домашней страницы может скрываться за едва заметным гипертекстовым указателем типа Advanced Search, Power Search, Options или другими.

Освоение интерфейса поисковой машины Аltа Vista является прекрасным фундаментом для работы с другими поисковыми системами.

Поисковая машина Ореn Техt Index (ОТI) (http://indeх.ореntехt.nеt) представляет собой мощную поисковую систему Сети, позволяющую находить информацию на основе построения запроса в виде слова или фразы для поиска в WWW–пространстве. После введений слова, группы слов или фразы произвольной длины в специальный поисковый шаблон показывается список страниц, текст которых включает в себя термины, заданные для поиска, и позволяет перейти непосредственно к просмотру документов.

Последовательность представления WWW–страниц в списке, содержащем результат поиска, определяется рангом каждого документа, обусловленным частотой употребления заданного термина в тексте и областью документа, где этот термин был употреблен, т.е. на основе достаточно общих принципов.

Каталоги и поисковая машина Yаhoo. Yаhоо (http://www.уаhоо.соm) является достаточно мощной поисковой машиной Сети с организацией доступа к информации не только по поисковому запросу, но и путем непосредственной навигации по тематически организованному в рамках Yаhоо иерархическому каталогу. Кроме того, Yаhоо реализует ряд дополнительных возможностей для поиска.

Русские поисковые машины. На долю русскоязычных пользователей Интернет выпало суровое испытание – использование нескольких различных кодировок для кириллицы, среди которых коi8–r, Windows ср1251, МS–DOS х–ср866,IS0–8859–х и Маc, ориентированных при создании на определенные операционные системы. Это влечет за собой ряд неприятных моментов, в лучшем случае таких, как постоянное использование дополнительных операций перекодировки текста в рабочей области браузера, в худшем – просто невозможность получить загруженную страницу в читабельном виде. Nеtscaре Nаvigator 4.0 поддерживает три вида кодировок (коi8–к. Windows ср1251 и ISO–8859–5), предоставляя возможность выбрать любую из них через меню. Microsoft Internet Explorer работал до последнего времени в кодировке Windows, и лишь недавно начал понимать и другие.

Все упомянутые выше трудности автоматически приводят к осложнениям при сканировании русскоязычной части Web – пространства поисковыми машинами, однако и здесь существует определенный прогресс.

Другой немаловажный аспект, зачастую сводящий на нет эффективность поиска документов, набранных в кириллице, по ключевым словам состоит в том, что морфология русского языка (прежде всего многообразие падежных форм) не дает правильного числа совпадений с терминами в документе, если грамматическая форма термина в поисковом запросе и в документе отличаются. В этом смысле несомненный интерес представляет разработка поисковых систем, учитывающих морфологию русского языка, таких, как программные продукты на основе ядра Яndех компании Соmр Теk International. Яndех включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов и др. Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, т.е. находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с применением логических операторов.

Поисковая система Yandeх (Яndех) (htpp://vww.yandex.ru) компании Соmр Тек International реализована на базе данных сервера Издательского дома «Открытые Системы» (htpp://win.\vww.osp.гu), причем поисковый язык является достаточно развитым.

В последнее время растет популярность достаточно мощной и быстрой поисковой машины Rambler (htpp://www.rambler.ru), поддерживаемой в Сети компанией Stak Ltd. (г.Пущинo), которая предоставляет возможность поиска как в Wеb, так и в системе телеконференций при распознавании всех кодировок кириллицы и с применением обычных логических коннекторов.

Особенности URL ресурсов Интернет, полезные при поиске. В процессе поиска информации в Сети важную роль играет понимание логики именования информационных объектов. Поиск по терминам, входящим в URL ресурса, который, как мы могли убедиться, поддерживают многие поисковые машины, в ряде случаев оказывается более эффективным. Так, корпорации, как правило, включают в URL своих серверов название компании, прописывая его целиком, например сервер Microsoft – www.microsoft.com – и использование этого факта может существенно облегчить поиск. Если, например, искать материалы по работе с операционной системой Unix, то в отклике может быть получено огромное число документов, поскольку сам термин широко встречается в текстовых документах Сети и далеко не только в тех, где присутствует его описание. Для получения релевантного отклика целесообразно использовать запрос с элементом url:unix и скомбинировать его со словом «man». Первое говорит о том, что в название директории размещения файла или самого файла, если его главной темой является unix, с большой вероятностью входит и сам этот термин. Слово же «man» хорошо известно пользователям Unix как ключ к получению справки по системным командам.

Попытка отыскать электронный литературный текст в Сети какого–либо автора также может потерпеть неудачу, если не знать, что тексты такого рода в Интернет размещаются обычно в каталогах с именем url:etext, поэтому применение элемента url:etext быстро приводит к цели.

Использование крайне редких слов, применяемых в тех или иных отраслях деятельности, вместо более распространенных синонимов, также помогает существенно сузить область поиска и быстро получить документы специального назначения.

2 3 4 5 6 7 8

Подборка статей по вашей теме: