Поисковые системы как средство эффективного поиска информации в Сети

Рано или поздно любой пользователь Сети сталкивается с проблемой поиска информации. Информационное пространство Сети огромно и растет с каждым днем. Поэтому поиск информации может занять от нескольких минут до нескольких часов, иногда дней. Все в данном случае зависит от умения искать и находить нужные данные в Интернете.

Большое значение с точки зрения поиска информации имеет одна из важнейших служб Интернета – Всемирная паутина (WWW). Ее образуют миллионы серверов Сети, расположенные по всему миру. В 1998 г. в Интернете насчитывалось порядка 1 млн. веб-сайтов. Количество зарегистрированных доменных имен в Сети с 2000 г. выросло в 10 раз и на 01.01.2010 г. составило 733 млн. единиц. Количество пользователей Интернета выросло с 16 млн. человек в 1995 г. (0,4 % от общей численности населения мира) до 1 967 млн. в 2010 г. (28,7 % населения).

Всемирная паутина непрерывно связана с понятием гипертекста. Гипертекст (Hypertext) – это документ или система документов с перекрестными ссылками (гиперссылками). Для создания, хранения и отображения информации используется язык разметки гипертекста – HTML. HTML-файл является самым распространенным ресурсом Всемирной паутины.

В Сети наряду с актуальной информацией содержится много устаревших ресурсов, мусора и недобросовестной рекламы. Находить информацию в Интернете было бы очень трудно без помощи мощных поисковых инструментов таких, как:

- поисковые машины (поисковики);

- каталоги-рейтинги (рубрикаторы);

- тематические подборки списков ссылок;

- он-лайновые энциклопедии, словари, базы данных и т.д.

При этом для разных задач поиска информации необходимо использовать разные способы.

Информационный поиск – процесс поиска неструктурированной документальной информации и наука об этом поиске. Термин введен Кельвином Муром в 1948 г.

Для его проведения и были разработаны системы автоматизированного поиска (ИПС), которые стали широко использоваться с появлением Интернет.

Поиск информации состоит из 4 этапов;

1) определение информационной потребности и формулировка информационного запроса;

2) определение совокупности возможных держателей информационных массивов;

3) извлечение информации из выявленных информационных массивов;

4) ознакомление с полученной информацией и оценка результатов поиска.

Как показывает практика использования ИПС:

- 90 % пользователей задают поисковикам нечеткие запросы;

- 75 % пользователей не пытаются изменить запрос, если не находят нужной информации;

- 80 % запросов не содержат операторов.

Поиско́вая систе́ма (ПС) – программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (ПМ) – комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Рассмотрим подробнее механизм поиска с помощью поисковых машин. Комплект программ поисковой машины следующий:

- «Паук» (Spider) – программа, которая загружает в поисковую машину веб-страницы. Работает аналогично браузеру, но ничего не отражает на экране. Передает в поисковую систему HTML-код документа.

- «Червяк» или «путешествующий паук» (Crawler) – программа, способная найти на веб-странице все ссылки на другие страницы. Ее задача – определить, куда дальше должен «ползти» «паук», руководствуясь ссылками или заранее заданным списком адресов.

- Индексатор (Indexer) – программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки веб-страниц, заголовки документов, ссылки, тексты документов. Отдельно анализируется текст, выделенный полужирным шрифтом, курсивом и т.д.

- База данных (Database) – хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.

- Система выдачи результатов поиска (Search Engine Results Engine) – программа, которая принимает решение, какие страницы удовлетворяют запросу пользователя, и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.

Первые две программы, работающие «в связке», часто называют поисковый робот или HTTP-робот.

Процесс загрузки информации из Интернета и предварительного анализа ее поисковой машиной называют индексацией.

База данных ПС, в которой хранится вся собранная информация, называется индекс.

Глубина индексации может быть разной (полные тексты документов на странице, заголовки). После ввода запроса на поиск, поисковая машина просматривает свою базу данных и выдает перечень страниц, содержащих слова, введенные пользователем в поле ввода (ключевые слова). Таких страниц может быть очень много, задача ПМ отобрать те из них, которые максимально отвечают запросу пользователя (т.е., релевантны ему) и указать ссылки на них в числе первых.

Алгоритм поиска – это метод, руководствуясь которым поисковая машина принимает решение включать или не включать ссылку на страницу либо документ в результаты поиска.

Каждая поисковая машина использует собственный алгоритм поиска («ноу-хау» разработчика ПС). Но вместе с тем существуют общие критерии отбора документов, которыми руководствуются большинство ПС:

1. Присутствие ключевого слова в имени домена или в адресе страницы (URL). Если ответ положительный, то «вес» страницы увеличивается, т.е. больше вероятность появления ссылки на эту страницу в числе первых.

2. Присутствие ключевого слова в заголовке документа (между тегами <title и /title). «Вес» страницы также увеличивается.

3. Ключевое слово содержится в названиях разделов, подразделов документов. Это также приводит к увеличению значимости страницы.

4. Ключевое слово встречается в тексте документа, выделенным жирным шрифтом, курсивом и т.д. «Вес» страницы увеличивается.

5. Ключевое слово должно встречаться в тексте веб-документа достаточно часто (по статистике от 5до 7 % от всего объема текста). Если это происходит чаще, то будет расцениваться как спам либо специальная попытка разработчика страницы увеличить ее «вес».

6. Расположение слов в веб-документе находится в том же порядке, что и в запросе, что приводит кбольшей вероятности появления ссылки на эту страницу в числе первых.

7. Ключевые слова расположены в документе в одном предложении подряд либо между ними небольшое расстояние. «Вес» страницы увеличивается.

8. Присутствие ключевого слова в тексте ссылки на данной странице также дает положительный результат.

9. Наличие других страниц (на этом же сайте или на других), с которых ведут ссылки на документ. Чем с большего количества страниц будет ссылок на искомый документ, тем большим будет его «вес».

10. Совпадение слов, введенных в поле запроса с ключевыми словами, указанными на странице ее разработчиком или со словами, указанными разработчиком в описании страницы. Этот вариант также приводит к увеличению значимости страницы.

Основными преимуществами поисковых систем являются:

- достаточно высокая релевантность при поиске;

- индексы ПС охватывают больше ресурсов, чем каталоги;

- скорость поиска выше, чем при использовании каталогов, т.к. поисковик сразу выдает ссылки на документы, а в каталоге к ним продвигаешься постепенно;

- в ПС меньше устаревших ссылок, чем в каталогах.

К недостаткам поисковых систем можно отнести то, что:

- некоторые разработчики ресурсов с целью увеличения посещаемости их сайтов могут обманывать поисковики;

- пользоваться ПС, особенно в режимах сложного поиска, при котором надо знать язык запросов конкретной поисковой машины, сложнее, чем каталогом.

Перспективным направлением развития поисковых сервисов является разработка метапоисковых систем поиска. Метапоисковые системы (МПС) – системы, позволяющие проводить поиск по запросу пользователя сразу в нескольких поисковых системах.

Метапоисковая система является посредником между пользователем и множеством поисковых систем. Она не предназначена для индексирования и накопления информации, ее назначение – чистый поиск и обработка результатов поиска.

В отличие от ПС и каталогов, МПС не имеют собственных баз данных и не регистрируют адреса сайтов и сами по себе не занимаются поиском. Система переадресовывает запрос сразу нескольким поисковым системам, ссылки выводятся по всем системам без дублирования. Они экономят достаточно много времени, избавляя от необходимости вводить запрос в каждой отдельной поисковой системе. Результаты, в большинстве случаев в высшей степени релевантны. Метапоисковые системы могут использоваться владельцами сайтов для выяснения, присутствует ли их сайт в главных ПС, какие у него рейтинги. В запросах метапоисковиков можно использовать только общие операторы, которые приемлемы для большинства ПС. Встречаются метапоисковые машины с собственным языком запросов, но их мало.

МПС целесообразно применять в следующих случаях:

- при поиске документов с редкими словами или фразами;

- в самом начале процесса поиска, т.к. можно получить самые релевантные результата по нескольким ПС.

Наиболее популярными российскими МПС являются: MetaBot.ru (http://www.metabot.ru) и интеллектуальная поисковая система Нигма.РФ (http://www.nigma.ru). Последняя позволяет одновременно производить поиск в таких ПС, как Yandex, Google, Rambler, Yahoo!, Altavista, Aport, Nigma. Общее количество документов для поиска > 1 млн, обладает собственными возможностями для индексирования веб-страниц.

Среди зарубежных МПС можно выделить:

- Meta Crawler (http://www.metacrawler.com) – > 10 ПС и каталогов;

- Ixquick (http://www.ixquick.com) – т.н. «скрытый» веб;

- Surfwax (http://www.surfwax.com) – платная система;

- Vivisimo (http://www.vivisimo.com) – поддерживает, в том числе, и русскоязычные запросы;

- МПС компании CNET., Inc (http:// www.search.com) – поиск ведется по 20 ПС.

При поиске информации могут быть задействованы и поисковые агенты (оффлайновые метапоисковики), т.е. программы, которые устанавливаются на компьютере пользователя. Наиболее известным из них является Copernic Agent (http://www.copernic.com). Поиск можно вести на нескольких языках: английском, немецком, французском, испанском.

Существуют также специализированные и оригинальные поисковые системы и каталоги:

- каталоги поисковых систем AlltheWeb, Altavista, Google (http://www.bestsearchers.com/search-general/search-engines.html);

- ежедневные обзоры стартапов, интересных и полезных интернет-проектов Рунета (http://www.catalogr.ru);

- оригинальная поисковая система Mrquery gets it! (http:// www.mrquery.com) – включает более 100 баз данных для поиска;

- оригинальная поисковая система Symbaloo (http://www.symbaloo.com);

- системы поисковой визуализации компании Quintura. Inc (интерактивные поисковые системы) (http://www.quintura.com, http://www.quintura.ru);

- каталоги «скрытых» ресурсов:

а) http://www.completeplanet.com – > 100 тыс. ссылок;

б) http://www.bighub.com;

в) http://www.invisible-web.net

г) http://www.dialog.com – более 700 тыс. пользователей, 900 баз данных, используется в 100 странах мира;

д) http://www.lexisnexis.com – содержит информацию для юристов, коммерческую информацию.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: