double arrow

Поиск в Интернете

1

Лекция 13 Специализированные поисковые ИС

Бытует мнение, что в Интернете есть все, но найти там что-либо практически невозможно. Впрочем, противоположная точка зрения, взятая на вооружение поисковой системой Яндекс, гласит, что найти в Интернете можно все. Видимо, для того чтобы находить, нужно уметь искать.

Для поиска в Интернете предназначены различные инструменты: поисковые машины, индексированные каталоги, метапоисковые системы, тематические списки ссылок, онлайновые энциклопедии и справочники. При этом для поиска разного рода информации наиболее эффективными оказываются различные инструменты. Рассмотрим каждый инструмент в отдельности.

Индексированные каталоги содержат информацию, иерархически структурированную по темам. Тематические разделы первого уровня определяют широко популярные темы, такие как спорт, отдых, наука, магазины и т.д. В каждом разделе есть подразделы. Таким образом, путешествуя по дереву каталога, можно постепенно сужать область поиска. Дойдя до нужного подкаталога, вы находите в нем набор ссылок. Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если вы ищете информацию по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же вам необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством. Один из наиболее популярных каталогов в России – List.ru находится по адресу http://mail.ru. Кроме каталогов общего назначения в Сети много специализированных каталогов. Если внутри отдельной темы каталога находится огромное количество ресурсов, возникает проблема выбора. В некоторых каталогах имеется сортировка по популярности, например в каталоге Яндекс сортировка идет по индексу цитирования.

Тематические списки ссылок – это списки, составленные группой профессионалов или коллекционерами-одиночками. Часто узкоспециализированная тема может быть раскрыта одним специалистом лучше, чем группой сотрудников крупного каталога. Тематических коллекций в Сети очень много, поэтому давать конкретные адреса не имеет смысла.

Поисковые машины. В ответ на запрос мы обычно получаем длинный список документов, многие из которых не имеют никакого отношения к теме запроса. Такие документы называются нерелевантными, т .е. не относящимися к делу. Таким образом, релевантный документ – это документ, содержащий искомую информацию. Очевидно, что от умения грамотно делать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной документов называется точностью поиска. Если все найденные документы релевантные, то точность поиска составляет 100 %. Если найдены все релевантные документы, то полнота поиска – 100 %. Таким образом, качество поиска определяется двумя параметрами: точностью и полнотой поиска. Эти величины взаимозависимы, т.е. увеличение полноты снижает точность, и наоборот.

Поисковая машина состоит из двух частей: робота, или паука, и поискового механизма. База данных робота формируется в основном им самим (робот сам находит ссылки на новые ресурсы) и в существенно .меньшей степени – владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота, который обходит все предписанные серверы и формирует базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковой машины сводится к тому, что она опрашивает свою базу данных по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.

Поиск по индексу заключается в том, что пользователь формирует запрос и передает его поисковой машине. В случае, когда у пользователя имеется несколько ключевых слов, весьма полезно использование булевых операторов. Текст, в пределах которого проверяется логическая комбинация, называется единицей поиска. Это может быть предложение, абзац или весь документ. В разных поисковых системах могут использоваться различные единицы поиска. После того, как пользователь сделал запрос, поисковая система обрабатывает синтаксис запроса и сравнивает ключевые слова со словами в индексе. После этого составляется список сайтов, отвечающих запросу, они ранжируются по релевантности, и формируется результат поиска, который и выдается пользователю.

Существует огромное количество поисковых систем. Наиболее популярная на Западе поисковая система – Google (www.google.com). Всемирно популярный каталог Yahoo! в качестве поисковой системы использует именно Google . В Рунете самыми популярными поисковыми системами являются Яндекс ( www .yandex.ru) и Рамблер (www.rambler.ru).

Метапоисковые системы. Так как Интернет развивается стремительными темпами, то рост количества документов происходит быстрее, чем поисковые системы успевают их проиндексировать. Отсюда следует, что даже если в Сети и есть то, что вы ищете, вовсе не обязательно, что об этом знает та поисковая машина, к которой вы обратились. Велика вероятность, что нужный документ проиндексирован другой поисковой системой. Поэтому существуют службы, позволяющие транслировать запрос сразу в несколько поисковых систем – это метапоисковые системы. Однако пользоваться ими во всех случаях не следует. Если документов по теме много, то метапоиск, возможно, даже вреден, поскольку смешивает разные логики ранжирования. Но если документов по теме мало, то метапоиск может быть полезен именно потому, что объединяет большое число поисковых систем.

Очень удобной в этом отношении является отечественная программа ДИСКо Искатель ( www.disco.r u).

Онлайновые энциклопедии и справочники. Очень часто нужно найти не документ, содержащий то или иное ключевое слово, а именно – толкование искомого слова. Одной из крупнейших онлайновых энциклопедий является ресурс Яндекс.Энциклопедии (http://encycl.yandex.r u /). Этот проект содержит 219 968 статей из 14 энциклопедий, в том числе из БСЭ и Энциклопедии Брокгауза и Ефрона. К крупным относится и Энциклопедия Кирилла и Мефодия, которую можно найти по адресу www.km.ru.

Особенно актуальным является поиск толкований терминов по информационным технологиям, которые развиваются так быстро, что уследить за появлением новых терминов очень сложно. Единственный ресурс на русском языке, который можно назвать компьютерным энциклопедическим словарем, - это проект Компьютерная энциклопедия Кирилла и Мефодия (http://www.megakm.rи/pc/), предусматривающая поиск не только по термину, но и по тематической структуре. Объем словаря терминов - 700 статей. Объем англоязычного словаря FOLDOC (Free On-line Dictionary Of Computing; http://wombat.doc.ic.ac.uk/) – более 13 тыс . терминов .

1

Сейчас читают про: