double arrow

Технология поиска информации в Интернет

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.). Рассмотрим основные технологии поиска информации в Интернет, общие черты поисковых инструментов, структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Технологии поиска.

Технология поиска (англ. "Search Technology") означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего).

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?»

В решении данной проблемы на помощь приходят поисковые инструменты.

Поисковые инструменты – это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета.

Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

2. Поиск информации по запросу пользователя.

3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы.

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – простой поиск и расширенный поиск с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска.

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание. Оператор and позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный оператор near, указывающий, что слова должны располагаться в документе в достаточной близости. Использование near значительно уменьшает количество найденных документов. Наличие символа "*" в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex. В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме. Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация. Некоторые из операторов языка запросов Яndex можно посмотреть здесь: http://help.yandex.ru/search/?id=481939

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Рассмотрим наиболее популярные технологии поиска информации в Интернет.

Поисковые машины (search engines).

Машины веб-поиска – это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) – Яndex, Rambler, Aport.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово. Далее Вы получите выдачу из ссылок, хранящихся в базе поисковой системы, которые наиболее близки Вашему запросу.

Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты:

- определитесь с темой запроса. Что именно в конечном итоге Вы хотите найти?

- обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию. Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса – принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел "Help" ("Помощь"), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).

- используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.

- чтобы исключить документы, содержащие определенные термины, используйте знак "-" перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением "Гамлета", то введите запрос в виде: "Шекспир-Гамлет". И для того, чтобы, наоборот, в результаты поиска обязательно включались определенные ссылки, используйте символ "+". Так, чтобы найти ссылки о продаже именно автомобилей, Вам нужен запрос "продажа+автомобиль". Для увеличения эффективности и точности поиска, используйте комбинации этих символов.

- каждая ссылка в списке результатов поиска содержит сниппет – несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответствие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять – по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет – возвращайтесь к результатам поиска и пробуйте очередную ссылку.

- помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система – это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Просто потому, что поисковые системы не работают со скоростью света.

- К наиболее известным машинам веб-поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler, Апорт.

- Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети.

Каталоги (directories).

Каталог Интернет-ресурсов – это постоянно обновляющийся и пополняющийся иерархический каталог, содержащий множество категорий и отдельных web-серверов с кратким описанием их содержимого. Способ поиска по каталогу подразумевает «движение вниз по ступенькам», то есть движение от более общих категорий к более конкретным. Одним из преимуществ тематических каталогов является то, что пояснения к ссылкам дают создатели каталога и полностью отражают его содержание, то есть дает Вам возможность точнее определить, насколько соответствует содержание сервера цели Вашего поиска.

Примером тематического русскоязычного каталога можно назвать ресурс http://www.ulitka.ru/.

На главной странице данного сайта расположен тематический рубрикатор, с помощью которого пользователь попадает в рубрику со ссылками на интересующую его продукцию

Кроме того, некоторые тематические каталоги позволяют искать по ключевым словам. Пользователь вводит необходимое ключевое слово в строку поиска и получает список ссылок с описаниями сайтов, которые наиболее полно соответствуют его запросу. Стоит отметить, что этот поиск происходит не в содержимом WWW-серверов, а в их кратком описании, хранящихся в каталоге.

Другие примеры русскоязычных каталогов:

weblist.iknowit.ru – Каталог научно-познавательных сайтов

Vsego.ru

Cреди англоязычных каталогов можно выделить:

http://www.DMOS.org

http://www.yahoo.com/

http://www.looksmart.com

Система поиска FTP-файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для передачи по сети файлов.

Основным критерием поиска является название файла, задаваемое разными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска, конечно же, не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его содержащий, будет иметь соответствующее имя, и Вы сможете найти его при помощи одного из серверов FTP Search:

FileSearch ищет файлы на FTP-серверах по именам самих файлов и каталогов. Если Вы ищете какую-либо программу или еще что-то, то на WWW-серверах Вы скорее найдете их описание, а с FTP-серверов Вы сможете перекачать их к себе.

Развитие сети Internet.

Internet − очень быстро развивающаяся сеть, и причина этого не в свойствах самой сети, а в общих тенденциях развития компьютерной индустрии. Самым многообещающим направлением развития Internet и сетевых технологий в целом является проект Java компании Sun Microsystems. Java − это интерпретируемый язык, специально рассчитанный на работу в открытой сетевой среде. В настоящее время появляются все новые навигаторы с поддержкой сетевого языка Java. Вполне вероятно, что его поддержку будут обеспечивать все WWW-навигаторы, а значит и многие серверы. Если Java станет стандартом де-факто, сеть Internet и вся компьютерная технология выйдут на качественно новый уровень развития, когда ресурсы компьютеров всего мира будут объединены в один компьютер под названием «Сеть».

Примечательно, что проект Java дает возможность решить самые глубокие проблемы системы WWW: отсутствие интерактивности, ограниченный контроль вида документа, ограниченный набор форматов встроенной графики и других объектов мультимедиа.

С помощью проекта Java компания Sun Microsystems рассчитывает быть пионером в области сетевых технологий, создать новый рынок под лозунгом: «Сеть – это компьютер». Шансы на успех у нее довольно неплохие.

В ходе развития сети Internet предполагается решить и другие проблемы, такие, как отсутствие адекватных средств идентификаций удаленных абонентов, сложности в реализации законов об экспорте и авторских правах (нет полного понимания того, что в Internet защищено авторским правом, а что – нет; трудности в распространении и контроле электронной продукции и т.д.). С ростом числа абонентов сети острее становится проблема управляемости, тем более что Internet появилась и до сих пор развивалась как свободная, открытая и малоуправляемая сеть. Сеть коммерциализируется, фактически полностью прекращено ее государственное финансирование. Она все меньше предоставляет исследовательскую информацию и все больше − рекламную и коммерческую.

Используемый в настоящее время в сети Internet протокол IP для адресации компьютеров содержит 32 бита. Учитывая все ускоряющийся рост абонентов сети, очень скоро этого окажется недостаточно. Для решения проблемы разрабатывается протокол IP нового поколения − IРng, в котором для адреса отводится 128 бит, что позволяет адресовать астрономическое количество абонентов. Это потребует практически полной замены существующего программного обеспечения и активного сетевого оборудования.

Наконец, злободневным вопросом для полноценного использования коммуникационных возможностей Internet является вопрос безопасности циркулирующей в сети информации. Подключение компьютера к глобальной сети делает его более уязвимым, хотя степень уязвимости становится существенно меньше, если обеспечить более или менее действенный контроль информации в точке взаимодействия локальной и глобальной сетей. И все же стопроцентных методов защиты от несанкционированного доступа к информации и ее искажения не существует. Но принцип «стоимость вскрытия защиты должна быть выше ценности защищаемых данных» удается удовлетворить все чаще.

Актуализация — (лат. actualis — деятельный, действенный):

1) действие, направленное на приспособление чего-либо к условиям данной ситуации;

2) Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", , ~), математические символы (*, +, ?).

3) Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

4) Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.


Сейчас читают про: